非参数统计(R软件)参考答案 下载本文

内容发布更新时间 : 2024/12/23 14:56:41星期一 下面是文章的全部内容请认真阅读。

对第二组数据检验的结果为:df=1, t值为-3,单边(?<100, less)的P值为p-value = 0.1024,不拒绝原假设?=100。但是mean(y)=25.

解:两个结论都不是合理的,t检验是针对正态数据做的,第一组数据事实上是两点分布,x的取值域为{99,100},所以t检验的基本假设不满足,所以第一个检验是不合理的;第二组数据的t检验也是不合理的,样本量太少,不具有代表性。

(3)写出上面所用的t检验统计量,及p值的定义,解释水平?=0.05的意义(注意,这里是一般情况,不要联系(2)中的具体数据例子),如果没有给定水平,如何用p值来做出结论? 解:设样本X1,X2,...,Xn iid N(?,?2), 对于三种假设(双边假设,两个单边假设)都用同一个t统计量t?X??,p值p_value=P?|T|?t?(双边检验,alternative=”two.side”),S/np_value=P?T?t?(右边检验, alternative=”greater”),p_value=P?T?t?(左边检验alternative=”less”),其中T~t(n?1)。p_value小于检验水平?时拒绝原假设,接受H1 。则有 I. 双边假设检验H0:???0?H1:???0,拒绝原假设H0?t?t?/2 ?p_value=P?|T|?t?

解:t检验是在正态样本条件下做。确实,双边假设的t检验与置信区间一一对应。其双边假设检验式,有P?|T|?t?≤??P?|T|?t??1???

SS??P?X?t?/2???X?t?/2??1??

nn??其中随机变量T服从t(n-1)分布。S是正态样本的样本方差。

(5) 如果X1,X2,...X,n服从正态分布N(?,?2),其中?未知,写出有关的关于均值?的100(1-?)%的置信区间。一般来说,如果知道X1,X2,...,Xn有未知均值?和已知方差?2,但分布不知道,我们不能用上面写的置信区间?如果能,需要什么条件?根据是什么?用公式说明。 解:①如果X1,X2,...,Xn服从正态分布N(?,?2),其中?未知,写出有关的关于均值?的100(1-?)%的置信区间。用到下面两个统计量:

Z?X??X??~N(0,1),t?~t(n?1) ?/nS/n如果方差?2已知,则用正态置信区间,用Z构造置信区间。

????P?X?z?/2???X?z?/2??1??

nn??②如果方差?2未知,则用t构造置信区间:

SS??P?X?t?/2???X?t?/2??1??

nn??③如果知道X1,X2,...,Xn有未知均值?和已知方差?2,但分布不知道,我们不能用上面写的置信区间,用切比雪夫不等式构造置信区间:

?2?2P?|X??|????1?2,令?=2

n?n??2P?X?????X????1?2

n??2?(6)在切比雪夫不等式中,令B=2?,??1?2,??,所以对给定的检验水平?,

n?n?1???B?2?

n?1???

1.11 (数据光盘文件:beenswax.txt)为探测蜂蜡结构,生物学家做了很多实验,在每个蜂蜡里碳氢化合物(hydrocarbon)所占的比例对蜂蜡结构有特殊的意义,数据中给出了一些观测。 (1)画出beenswax数据的经验累积分布、直方图和Q-Q图。 (2)找出0.9,0.75,0.50,0.25,0.10的分位数。 (3)这个分布是高斯分布吗? 解:

beenswax=read.table(\非参数统计\\\\data2014\\\\各章数据\\\\第1章\\\\beenswax.txt\attach(beenswax); names(beenswax)

[1] \

说明beenswax有两个变量:\,分别表示,熔点和碳氢化合物所占比例。

(1) 依题意,对Hydrocarbon的作图程序如下得图1.11-1 cdf=ecdf(Hydrocarbon);#计算经验分布函数 par(mfrow=c(2,2));#定义图矩阵为2行2列 plot(cdf);hist(Hydrocarbon);

qqnorm(Hydrocarbon);qqline(Hydrocarbon)

图1.11-1 图1.11-2

将上述程序中的Hydrocarbon替换成MeltingPoint,对MeltingPoint的作图程序如下得图1.11-2 cdf=ecdf(MeltingPoint);#计算经验分布函数 par(mfrow=c(2,2));#定义图矩阵为2行2列 plot(cdf);hist(MeltingPoint);

qqnorm(MeltingPoint);qqline(MeltingPoint)

(3) 从直方图看,两者基本成对称,钟形,从两者的正态Q-Q图,也知道,两者的散点基本在两条直线的附近。所以两近似正态分布(高斯分布)。

对Hydrocarbon和MeltingPoint做ks.test,P值分别为:0.9766和0.7774, 两个检验都没有拒绝原假设(数据呈正态分布)。程序如下:

ks.test(Hydrocarbon,pnorm,mean(Hydrocarbon),sd(Hydrocarbon)); ks.test(MeltingPoint,pnorm,mean(MeltingPoint),sd(MeltingPoint));

内容:

2.1, 2.2, 2.4, 2.1 2, 2.14

2.1 超市经理想了解每位顾客在该超市购买的商品平均件数是否为10件,随机观察12位顾客,得到如下数据: 顾客 1 件数 22 2 9 3 4 4 5 5 1 6 16 7 15 8 26 9 47 10 8 11 31 12 7 (1)采用符号检验进行决策。

(2)采用Wilcoxon符号秩检验进行决策,比较它和符号检验的结果。 (如果分布对称,则Wilcoxont符号秩检验较优,P值小者较优) 解:(1) 采用符号检验进行决策: 根据题意,检验的假设为双边假设

H0:median?10?H1:median?10

x=c(22,9,4,5,1,16,15,26,47,8,31,7);

sg=sum(x>10);sl=sum(x<10);n1=sg+sl;k=min(sg,sl); binom.test(k,n1,0.5); 结果输出:

Exact binomial test data: k and n1

图2.1.1 数据分布直方图 number of successes = 6, number of trials = 12, p-value = 1

alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2109446 0.7890554 sample estimates:probability of success 0.5 p-value = 1,不拒绝原假设H0

(2) Wilcoxon符号秩检验,假设如果(1):

Wilcoxon signed rank test with continuity correction data: x - 10

V = 53, p-value = 0.2892

alternative hypothesis: true location is not equal to 0 p-value = 0.2892, 没有充分理由拒绝原假设。

注:虽然两个检验的结论相同,但我们认为(1)可靠。因为数据的分布不是对称,而后者是基于对称分布的。而本题的数据分布直方图如下,显然是不对称的,所针对本题数据,wilcox.test不可靠。

2.2考查某疾病的患者共计350名,男性150人,女性200人,问该疾病得病的男女性别比是否为1:1,即其男女比例是否各为1/2?

提示:用中心极限定理,正态近似检验,即Demoive-Laplace中心极限定理:p=0.5,n=350, X~b(350,0.5),E(X)=175, Var(X)=npq=n/4=350/4。标准化X近似于标准正态。 解:根据题意,设男性患者的比例为p,则检验的假设为H0:p?0.5?H1:p?0.5

设男性患者数为X,则X~b(350,0.5),E(X)=175, Var(X)=npq=n/4=350/4。标准化X近似于标准正态。

Z?X?np150?175?-2.672612 ~N?0,1?,z?n/4npqp-value=2*min(pnorm(z,0,1),1- pnorm(z,0,1))= 0.007526315, 拒绝原假设p=0.5,认为患者中男性比率不是0.5,

男女比例不是1:1.

注:究其实,男性患者的比率显著地<0.5.

2.4 下表中的数据是两个篮球联赛中三分球的进球次数,该数据的目的是考察两个联赛三分球得分次数是否存在显著性差异。 (1)符号检验。

(2)配对Wilcoxon符号秩检验。

(3)在这些数据中哪个检验更好?为什么?(P值小者好) 三分球进球次数 队伍序号 1 2 3 4 5 6 7 8 9 10

联赛1 91 46 108 99 110 105 191 57 34 81 联赛2 81 51 63 51 46 45 66 64 90 28