数据模型与决策复习题1 下载本文

内容发布更新时间 : 2024/5/18 10:34:52星期一 下面是文章的全部内容请认真阅读。

《数据模型与决策》复习题

1.针对一个总体均值向量的检验而言,在协方差阵Σ已知和未知的两种情形下,如何分别

构造统计量?

2.针对典型相关分析而言,简述典型变量与典型相关系数的概念

3. 在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。 4. 简述主成分分析与因子分析的基本思想,以及两者的不同之处。

5.简述复相关系数与偏相关系数。

6.简述因子分析模型与线性回归模型的区别与联系。

7.在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?

8.简述主成分分析中累积贡献率的具体含义。

9. 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?

10.设随机向量.X?(X1,X2,,Xp)T服从正态分布,已知其协方差阵Σ为对角阵,证明

X 的分量是相互独立的随机变量。

?16?42?11、设X?(x1,x2,x3)~N3(?,?),其中??(1,0,?2)?,????44?1?,???2?14????x?x?试判断x1?2x3与?23?是否独立??x1?12、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值?0?(90,58,16)?,现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。?14.6210?82.0??4.3107其中X??60.2?,(5S)?1?( 115.6924)?1??14.62103.172????14.5??8.9464?37.3760???(??0.01,F0.01(3,2)?99.2,F0.01(3,3)?29.5,F0.01(3,4)?16.7)8.9464??37.3760??35.5936??

?1??T13、设X?(X1,X2,X3,X4)~N4(0,?),协方差阵?????????1??1???????,0???1???1??(1) 试从Σ出发求X的第一总体主成分;

(2) 试问当 ? 取多大时才能使第一主成分的贡献率达95%以上。

14、设随机向量X的均值向量、协方差矩阵分别为?、?,试证:E(XX?)??????。

15.如何考察自变量之间是否存在多重共线性的问题?如果存在多重共线性,会有什么后果?如何在尽量不降低模型解释力的前提下消除多重共线性问题?

16.无论是国家或是地区,综合实力的竞争归根到底是经济与科技实力的竞争。一个地区的

科技实力水平以及发展状况决定它在将来总体格局中的地位。某省决定对其所辖的9个地区科技实力进行综合评价。为此委托某科研小组对以下问题进行研究:

(1) 确定适当的评价指标体系,采用科学的评价方法对9个地区科技实力进行综

合评价;

(2) 确定影响各个地区科技发展的因素,提出促进科技发展的对策建议; (3) 研究该省9个地区科技发展状况的差异性,了解各个地区科技发达程度。 假设你是该科研小组成员,你觉得在这个课题的研究过程中,可以应用哪些多元统计方法?请指出每种方法的应用具体设想。

. 17. 某校研究生院基于该校全体研究生的各方面信息,拟对以下问题进行调研: (1)了解研究生们本科阶段的成绩与研究生阶段学习成绩的关系; (2)了解相同院系或专业的研究生中,免试推荐研究生与通过国家研究生入学考试而录

取的学生之间的研究生课程成绩是否有差异;如果存在差异,则要弄清楚原因; (3)了解不同专业、来自于不同地区或不同本科院校的研究生们在学习成绩,科研能力

等方面的状况。

(4)了解影响研究生能力和综合素质培养的主要因素,提出相应对策建议。 如果你是研究小组成员,你将采用怎样的多元统计方法研究以上问题?请指出每种方 法的具体设想。 18. 设有三个总体G1,G2和G3,概率密度分别为f1(x),f2(x),f3(x),假定各总体的先验概

率相等,误判损失如下:

c(21)?10, c(12)?100, c(31)?50, c(13)?200, c(23)?80, c(32)?120,

现有一样本X0,使f1(X0)?0.1, f(?.8, (f3X)01.5?2X)00将该样品判归哪个总体?

19. 下面是5个样品两两间的距离矩阵

,按照贝叶斯判别准则,应

?0?4?D(0)??6??1??6??0?? ,试用最长距离法作聚类并画出谱系图. 90?7100?3580??20. 在一次调查中调查了消费者对一种玩具熊6个方面的评价:COLOUR(颜色)、 SOFTNESS(柔软度)、STYLE(外观)、VALUE(价值)、ROBUST(耐用性)、SAFETY(安全性)。对数据进行因子分析的部分结果如下,因子分析中采用了主成分方法,因子系数矩阵采用方差最大旋转。根据结果回答下列问题:

(1)变量之间的相关系数表如下。根据表中的数据分析因子分析方法的适用性。

Correlation MatrixCorrelationCOLOURSOFTNESSSTYLEVALUEROBUSTSAFETYCOLOUR1.000.875.651.036.090.046SOFTNESS.8751.000.552.070.153.116STYLE.651.5521.000-.029-.100-.004VALUE.036.070-.0291.000.697.611ROBUST.090.153-.100.6971.000.712SAFETY.046.116-.004.611.7121.000(2)因子分析中为什么要进行因子旋转?

(3)旋转后的因子载荷矩阵如下,分析各个因子的含义。用F1、F2表示两个因子,写出用公共因子表示的COLOUR变量的表达式。

21. 某项调查中随机收集了100名职工的相关数据,这些职工分别来自3家不同的公司。各变量的含义如下: 性别:0=女性,1=男性;公司:1=公司1 2=公司2 3=公司3;收入:上个月的收入(元); 支出:上个月的支出(元)。 a、下表是对收入做描述统计的结果。 (1)根据表中的内容写出收入的均值、中位数,以及均值95%的置信区间 (2)分析数据分布的对称性。 收入 均值 均值95%的置信区间 中位值 方差 标准差 偏度 峰度 下限 上限 统计量 2840.02 2540.96 3139.08 2838.71 2944.5 2271681.7 1507.21 -0.105 -1.215 标准误 150.721 0.241 0.478 5% 修整均值

b、研究人员希望检验能否认为总体的平均收入大于2500元。SPSS软件t检验的结果如下表。写出检验中的原假设、备择假设和检验的结论(显著性水平a=0.05)。

单个样本检验 统计量 df Sig.(双侧) 均值差值 检验值 = 2500

均值差的 95% 置信区间 下限 上限