内容发布更新时间 : 2025/1/23 0:59:49星期一 下面是文章的全部内容请认真阅读。
The SAS System
Analysis Variable : Y
N Mean Std Dev Skewness Kurtosis
-----------------------------------------------------------
132 6.7803030 1.9233971 -0.1322816 -0.5510332
-----------------------------------------------------------
直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。
1.15 黄胸鼠体重的频数分布[6]:
组 界/g
0 y75<≤90 90 y150<≤165 总 数 频 数 10 26 30 22 22 17 16 14 6 4 2 169 绘制频数分布图,从图形上看分布是对称的吗,说明什么问题? 答:下面是频数分布图: 从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者的数量。另外,似乎峭度也有些低。 1.16 25名患者入院后最初的白细胞数量(×103)[7] 如下表: 6 9 8 6 7 6 8 5 12 4 11 7 3 11 14 11 10 14 4 5 5 7 12 5 6 计算白细胞数量的平均数、方差和标准差。 答:用means过程计算,程序不再给出,只给出运行结果。 Dev The SAS System Analysis Variable : Y N Mean Variance Std ------------------------------------------- 25 7.8400000 10.3066667 3.2103998 -------------------------------------------- 1.17 细胞珠蛋白基因(CYGB)可能是非小细胞肺癌(NSCLC)的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtIT-MtIN)[8]: 样本号 357 370 367 316 T/N 0.014 0.019 0.035 0.044 MtIT-MtIN 0.419 0.017 0.105 0.333 369 358 303 314 308 310 341 348 323 360 336 0.054 0.084 0.111 0.135 0.236 0.253 0.264 0.315 0.359 0.422 0.442 0.170 0.246 0.242 0.364 0.051 0.520 0.200 0.103 0.167 0.176 0.037 计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么? 答:记 T/N为y1,MtIT-MtIN为y2,用means过程计算,SAS运行的结果见下表: CV The SAS System Variable N Mean Std Dev ------------------------------------------------------ Y1 15 0.1858000 0.1505624 81.0346471 Y2 15 0.2100000 0.1465274 69.7749634 ------------------------------------------------------ 两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同 单位的影响了。 第二章 概率和概率分布 2.1 做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。上抛硬币,观察落下后是A向上还是B向上。重复10次为一组,记下A向上的次数,共做10组。再以100次为一组,1 000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。 答:在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。 options nodate; data value; n=10; m=10; phi=1/2; do i=1 to m; retain seed 3053177; do j=1 to n; y=ranbin(seed,n,phi); output; end; end; data disv; set value; by i; if first.i then sumy=0; sumy+y; meany=sumy/n; py=meany/n; if last.i then output; keep n m phi meany py; run; proc print; title 'binomial distribution: n=10 m=10'; run; proc means mean; var meany py; title 'binomial distribution: n=10 m=10'; run; 以下的三个表是程序运行的结果。表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。表的第二部分为10组数据的平均数。从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。 PY 0.57 0.45 0.51 0.61 0.61 0.43 0.56 binomial distribution: n=10 m=10 OBS N M PHI MEANY 1 10 10 0.5 5.7 2 10 10 0.5 4.5 3 10 10 0.5 5.1 4 10 10 0.5 6.1 5 10 10 0.5 6.1 6 10 10 0.5 4.3 7 10 10 0.5 5.6 8 10 10 0.5 4.7 0.47 0.52 9 10 10 0.5 5.2 10 10 10 0.5 5.6 0.56 binomial distribution: n=10 m=10 Variable Mean ---------------------- MEANY 5.2900000 PY 0.5290000 ---------------------- PY binomial distribution: n=100 m=10 OBS N M PHI MEANY 1 100 10 0.5 49.71 2 100 10 0.5 49.58 3 100 10 0.5 50.37 4 100 10 0.5 50.11 5 100 10 0.5 49.70 6 100 10 0.5 50.04 7 100 10 0.5 49.20 8 100 10 0.5 49.74 9 100 10 0.5 49.37 10 100 10 0.5 49.86 0.4971 0.4958 0.5037 0.5011 0.4970 0.5004 0.4920 0.4974 0.4937 0.4986 binomial distribution: n=100 m=10 Variable Mean ---------------------- MEANY 49.7680000 PY 0.4976800 ---------------------- binomial distribution: n=1000 m=10 OBS N M PHI MEANY PY 1 1000 10 0.5 499.278 0.49928 2 1000 10 0.5 499.679 0.49968 3 1000 10 0.5 499.108 0.49911 4 1000 10 0.5 500.046 0.50005 5 1000 10 0.5 499.817 0.49982 6 1000 10 0.5 499.236 0.49924 7 1000 10 0.5 499.531 0.49953 8 1000 10 0.5 499.936 0.49994 9 1000 10 0.5 500.011