内容发布更新时间 : 2024/11/16 13:32:11星期一 下面是文章的全部内容请认真阅读。
知 识 点 总 结 与 练 习
统计与统计案例
1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题.
1. 随机抽样
(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.
(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.
系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本. 1)编号:先将总体的N个个体编号;
NN
2)分段:确定分段间隔k,对编号进行分段,当n(n是样本容量)是整数时,取k=n; 3)确定首个个体:在第1段用简单随机抽样确定第一个个体编号l(l≤k);
4)获取样本:按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 分层抽样的步骤
1)分层:将总体按某种特征分成若干部分;
2)确定比例:计算各层的个体数与总体的个体数的比; 3)确定各层应抽取的样本容量;
4)在每一层进行抽样(各层分别按简单随机抽样或系统抽样的方法抽取),综合每层抽样,组成样本.
2. 常用的统计图表
(1)频率分布直方图 ①小长方形的面积=组距×
频率
=频率; 组距
②各小长方形的面积之和等于1;
频率1
③小长方形的高=,所有小长方形的高的和为.
组距组距(2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好. 3. 用样本的数字特征估计总体的数字特征
(1)众数、中位数、平均数
数字特征 众数 样本数据 出现次数最多的数据 频率分布直方图 取最高的小长方形底边中点的横坐标 1 / 11
知 识 点 总 结 与 练 习
将数据按大小依次排列,处在最中位数 中间位置的一个数据(或最中间两个数据的平均数) 平均数 样本数据的算术平均数 把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标 每个小矩形的面积乘以小矩形底边中点的横坐标之和 1(2)方差:s2=[(x1-x)2+(x2-x)2+…+(xn-x)2].
n标准差:s=1[?x1-x?2+?x2-x?2+…+?xn-x?2]. n
4. 变量的相关性与最小二乘法
(1)相关关系的概念、正相关和负相关、相关系数.
(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),…,(xn,yn),通过求Q=? (yi-a-bxi)2最小时,得
i=1
^
^
^
n
到线性回归方程y=bx+a的方法叫做最小二乘法.
?? x-xy-y
i=1?^b=
n
?? x-x
i=1
?^^
?a=y-b x.
i
i
2
i
nn
?xiyi-n x
i=1=n
2
i-n x?x2
y
,i=1
y2 b d b+d
其中,b是回归方程的斜率,a是在y轴上的截距.
4.样本相关系数
n
?
r=
i=1n
xi-xyi-yn
,用它来衡量两个变量间的线性相关关系.
yi-y
2
?
i=1
xi-x
2
?
i=1
(1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
5. 独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
x1 x2 总计 2
y1 a c a+c 总计 a+b c+d n n?ad-bc?2
则K=(其中n=a+b+c+d为样本容量).
?a+b??c+d??a+c??b+d?
2 / 11
知 识 点 总 结 与 练 习
考点一 抽样方法
例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后
在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为
( )
B.9
C.10
D.15
A.7 答案 C
960
解析 由系统抽样的特点知:抽取号码的间隔为=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]
32的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为
N
(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类n
题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.
(1)(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,
选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为
( ) 7816 3204 A.08
B.07 6572 9234 C.02 0802 4935 6314 8200 0702 3623 4369 4869 9728 6938 0198 7481 D.01 (2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.
答案 (1)D (2)37 20
解析 (1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.
(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n-3,所以第8组抽40
出的号码为37;40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为×100=20人.
200考点二 用样本估计总体
例2 (1)(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组
距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是
( )
3 / 11