多元统计复习题 附答案 下载本文

内容发布更新时间 : 2024/5/21 23:16:17星期一 下面是文章的全部内容请认真阅读。

复习题

原文:

答案:

4.2 试述判别分析的实质。

4.3 简述距离判别法的基本思想和方法。 4.4 简述贝叶斯判别法的基本思想和方法。 4.5 简述费希尔判别法的基本思想和方法。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为 ,则称 , 为 的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是?1和? 对于一个新的样品X,要判断它来自哪个总体。2,

22计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则

22 X ,D(X,G1) D(X,G2)

X ,D(X,G1)> D(X,G2, 具体分析,

22?(X?μ1)?Σ?1(X?μ1)?(X?μ2)?Σ?1(X?μ2)D2(X,G1)?D2(X,G2)

?1?Σ?1μ1?(X?Σ?1X?2X?Σ?1μ2?μ??X?Σ?1X?2X?Σ?1μ1?μ12Σμ2)?1?Σ?1μ1?μ??2X?Σ?1(μ2?μ1)?μ12Σμ2?2X?Σ?1(μ2?μ1)?(μ1?μ2)?Σ?1(μ1?μ2)?μ1?μ2??1???2?X? ?Σ(μ1?μ2)2????2(X?μ)?α??2α?(X?μ)记W(X)?α?(X?μ) 则判别规则为

X ,W(X) X ,W(X)<0 ②多个总体的判别问题。

设有k个总体G1,G2,?,Gk,其均值和协方差矩阵分别是μ1,μ2,?,μk和Σ1,Σ2,?,Σk,且

Σ1?Σ2???Σk?Σ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。

2?1具体分析,D(X,G?)?(X?μ?)?Σ(X?μ?)

?Σ?1X?μ??Σ?1μ??X?Σ?1X?2μ??1?X?C?)?X?ΣX?2(I?1?1?1取I??Σμ?,C???μ??Σμ?,??1,2,?,k。

2可以取线性判别函数为

?X?C?, ??1,2,?,k W?(X)?I??X?C?) 相应的判别规则为X?Gi 若 Wi(X)?max(I?1???k

4.4 简述贝叶斯判别法的基本思想和方法。

基本思想:设k个总体G1,G2,?,Gk,其各自的分布密度函数f1(x),f2(x),?,fk(x),假设k个总体各自出现的概率分别为q1,q2,?,qk,qi?0,

k?qi?1i?1。设将本来属于Gi总体的样品错判到总体Gj时造成的损失为C(j|i),

i,j?1,2,?,k。

设k个总体G1,G2,?,Gk相应的p维样本空间为 R?(R1,R2,?,Rk)。

在规则R下,将属于Gi的样品错判为Gj的概率为

P(j|i,R)??fi(x)dx i,j?1,2,?,kRji?j

则这种判别规则下样品错判后所造成的平均损失为

r(i|R)??[C(j|i)P(j|i,R)] i?1,2,?,k

j?1k则用规则R来进行判别所造成的总平均损失为

g(R)??qir(i,R)

i?1k??qi?C(j|i)P(j|i,R)

i?1j?1kk贝叶斯判别法则,就是要选择一种划分R1,R2,?,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)?kk?q?C(j|i)P(j|i,R)

ii?1j?1Rjkk??qi?C(j|i)?fi(x)dx

i?1j?1

???(?qiC(j|i)fi(x))dx

j?1Rji?1kk令

?qC(j|i)f(x)?h(x),则 g(R)???iiji?1kkj?1Rjhj(x)dx

若有另一划分R?(R,R,?,R),g(R)?则在两种划分下的总平均损失之差为

**1*2*k*??j?1kR*jhj(x)dx

g(R)?g(R)????*i?1j?1kkRi?R*j[hi(x)?hj(x)]dx

因为在Ri上hi(x)?hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。 从而得到的划分为

4.5 简述费希尔判别法的基本思想和方法。

R?(R1,R2,?,Rk)Ri?{x|hi(x)?minhj(x)}1?j?k i?1,2,?,k

答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 U(X)?u1X1?u2X2??upXp?u?X 系数u?(u1,u2,?,up)?可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。

② 当k=2时,若 则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。

③ 当 时,费希尔判别用 作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 ④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X ,W(X)

X ,W(X)

二者的区别在于阈值点。当q1?q2,C(1|2)?C(2|1)时,d

, , 假设4.7 设有两个二元总体 和 ,从中分别抽取样本计算得到 ,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)’应属于哪个总体?

?1,lnd?0。二者完全相同。

, = , =解: = =

’ Σ

Σ

即样品X属于总体

5.1 判别分析和聚类分析有何区别? 5.2 试述系统聚类的基本思想。

5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造

5.5试述K均值法与系统聚类法的异同。

5.1 判别分析和聚类分析有何区别?

答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

5.2 试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?

答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:dij(q)q取不同值,分为 (1)绝对距离(q?1)

p?(?Xik?Xjk)k?1pq1/q

dij(1)??Xik?Xjk

k?1(2)欧氏距离(q?2)

dij(2)??(Xi?kXk?1p21/2 jk)

(3)切比雪夫距离(q??)

dij(?)?maxXik?Xjk1?k?p

d(L)?1pXik?Xjk

(二)马氏距离

2(三)兰氏距离 dij(M)?(Xi?Xj)?Σ?1(Xi?Xj)

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用

p(一)夹角余弦 XikXjkk?1 cos?? ijpp 2(Xik)(X2jk) k?1k?1

???(二)相关系数

p (Xik?Xi)(Xjk?Xj)?k?1 rij? pp (Xik?Xi)2?(Xjk?Xj)2?k?1k?1

5.5试述K均值法与系统聚类法的异同。

答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。

6.1 试述主成分分析的基本思想。 6.2 主成分分析的作用体现在何处?

6.3 简述主成分分析中累积贡献率的具体含义。

6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

6.1 试述主成分分析的基本思想。

答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?

答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得