多元统计分析课后练习答案. 下载本文

内容发布更新时间 : 2024/11/18 17:51:51星期一 下面是文章的全部内容请认真阅读。

第1章 多元正态分布

1、在数据处理时,为什么通常要进行标准化处理?

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。

2、欧氏距离与马氏距离的优缺点是什么?

欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。 马氏距离表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。 优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?

统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

4、如果正态随机向量X?(X1,X2,是相互独立的随机变量。

解: 因为X?(X1,X2,pXp)?的协方差阵?为对角阵,证明X的分量

Xp)?的密度函数为

?1??1/2?1??1?f(x1,...,xp)??Σexp?(x?μ)Σ(x?μ)?? ??2??2????12?2?2?又由于Σ?????2Σ??12?22 ?p??? ??2??p??1??2?1??Σ?1???????12?2?????? ??1?2??p?则f(x1,...,xp)

??1???2??1???1?2?1/2?pexp??(x?μ)?Σ?1???2???????????????????(x?μ)??????1??2???p???1?22??Σ???21??2??p12?2

?1??????1?2?2??pp?p??1222?1(xp??p)??1(x1??1)1(x2??3)?exp????...?? 222?12?22?p?2????(xi??i)2?1??exp????f(x1)...f(xp) 22?i?1?i2?i??则其分量是相互独立。

1)4)5.y1和y2是相互独立的随机变量,且y1~N(0,,y2~N(3,。

(a)求y12的分布。

??y1(b)如果y???,写出y?y关于y1与y2的表达式,并写出y?y的分

?(y2?3)/2?布。

?y??1?(c)如果y??1?且y~N(?,,写出yy关于y1与y2的表达式,并)???y2?写出y??y的分布。

21)1)解:(a)由于y1~N(0,,所以y1~?(。

?11)4) (b)由于y1~N(0,,y2~N(3,;

所以

y2?321)~N(0,;

故y?y?y12?(

y2?3222))2,且y?y~?(

第2章 均值向量和协方差阵的检验

1、略

2、试谈Wilks统计量在多元方差分析中的重要意义。

3、题目此略

多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知 假设H0:???0 , H1:???0 (n=9 p=5)

检验统计量

T2?n(X??0)?S?1(X??0)服从P,n-1的T2分布

/(n-1)

统计量T2实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,T2有变大的趋势,所以拒绝域选择T2值较大的右侧部分,也可以转变为F统计量

零假设的拒绝区域 {(n-p)/[(n-1)*p]}*T2 >Fp,n?p(?) 1/10*T2 >F5,4(5)

μ0=( 6212.01 32.87 2972 9.5

样本均值(4208.78 35.12

15.78)’ 1965.89 12.21

27.79)’

12.01)

(样本均值-μ0)’=(-2003.23 2.25

-1006.11 2.71

协方差矩阵(降维——因子分析——抽取) Inter-Item Covariance Matrix 人均GDP(元) 三产比重(%) 人均消费(元) 人口增长(%) 文盲半文盲(%) 人均GDP(元) 1020190.840 582.460 331693.531 -599.784 -6356.325 三产比重(%) 582.460 19.480 -105.464 6.625 43.697 人均消费(元) 331693.531 -105.464 125364.321 -213.634 -3130.038 人口增长(%) -599.784 6.625 -213.634 6.099 25.410 文盲半文盲(%) -6356.325 43.697 -3130.038 25.410 196.884 协方差的逆矩阵

1.88034E-05 -0.000440368 -6.09781E-05 0.00279921 -0.000625893 -0.00044037 0.207023949 -0.000210374 -0.0237044 -0.06044981 -6.0978E-05 -0.000210374 0.00022733 -0.0105019 0.003047474 0.002799208 -0.023704352 -0.010501881 0.85288927 -0.18139981 -0.00062589 -0.06044981 0.003047474 -0.1813998 0.070148804

计算:边远及少数民族聚居区社会经济发展水平的指标数据.xls

T2=9* (-2003.23 2.25

-1006.11 2.71 12.01)*s^-1* (-2003.23 2.25

-1006.11 2.71 12.01)’=9*50.11793817=451,06144353 F统计量=45.2>6.2 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。

4、略

第3章 聚类分析

1.、聚类分析的基本思想和功能是什么?

聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。功能是把相似的研究对象归类。

2、试述系统聚类法的原理和具体步骤。

系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。 具体步骤:

1、对数据进行变换处理;(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的)

2、构造n个类,每个类只包含一个样本; 3、计算n个样本两两间的距离ijd; 4、合并距离最近的两类为一新类;

5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4; 6、画聚类图;

7、决定类的个数,从而得出分类结果。

3、试述K-均值聚类的方法原理。

K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非标准化数据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。重复这一步直到各类无元素进出。

4、试述模糊聚类的思想方法。

模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别。简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。它有两种基本方法:系统聚类法和逐步聚类法。该方法多用于定性变量的分类。 5、略

第4章 判别分析

1、应用判别分析应该具备什么样的条件?

答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差。 对于判别分析有三个假设:

(1)每一个判别变量不能是其他判别变量的线性组合。有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性。 (2)各组变量的协方差矩阵相等。判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。