内容发布更新时间 : 2025/6/16 22:56:04星期一 下面是文章的全部内容请认真阅读。
统计学复习重点
第一章
§1.1 统计及应用领域
什么是统计学? 描述统计和推断统计
统计学是收集,处理,分析,解释数据,并从数据中得出结论的科学 描述统计:是数据收集,处理,汇总,图表描述和概括分析的统计方法 推断统计:是用样本数据推断总体特征的统计方法。 §1.2 统计数据的类型
分类数据、顺序数据、数值型数据;截面数据、时间序列数据。
分类数据:只能归于某一类别的非数字型数据,它是对事物分类的结果,用文字来表述 顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。
数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 截面数据:在相同的时间点取得的数据
时间序列数据:在不同时间点取得的数据,按时间序列取得。 1.3统计中的几个基本概念
总体和样本;参数和统计量;变量:分类变量、顺序变量、数值型变量。 总体:包含所研究全部个体的集合 样本:从总体抽取一部分元素的集合
参数:用来描述总体特征的概括性数字度量 统计量:用来描述样本特征的概括性数字度量
第二章(§2.1 数据的来源, §2.2 调查数据, §2.3)。
概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样; 非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。 概率抽样:抽样时按一定的概率以随机原则抽取样本。 第三章
§3.1 数据预处理
数据审核:原始数据:完整性和准确性(p36)二手数据:适用性和实效性(p37)
完整性:调查个体是否遗漏,填写是否齐全。准确性:数据是否有错,是否存在异常值 适用性:1.弄清楚数据的来源,数据的口径以及有关的背景材料2。这些数据是否符合研究的需求
实效性:避免数据滞后,尽可能用最新的数据 §3.2 品质数据的处理及展示 条形图、饼图、环形图。
§3.3 数值型数据处理及展示
数据分组(单变量值分组和组距分组)、直方图、茎叶图和箱线图、线图、散点图、气泡图和雷达图
分组方法:单变量值分组和组距分组
分组步骤:1确定组数2确定各组组距3根据分组整理成频数分布表
1
§3.4合理使用图表 统计表的设计
第四章
§4.1集中趋势的度量
众数、中位数、分位数、平均数(简单平均数和加权平均数、几何平均数)。 §4. 2离散程度度量
异众比率、四分位差、方差和标准差、极差、平均差、离散系数。 异众比率:非众数组频数占总频数的比例 §4. 3 偏态与峰态(偏度与峰度不要求计算) 要求判断偏斜程度和扁平程度
第五章(§5.1 随机事件与概率,§5.2 概率的性质及运算法则)。 1. 古典概率的计算: P(A) = n(A)/n(Ω)
2.概率的加法法则: P ( A∪B ) = P ( A ) + P ( B ) - P ( A∩B )
如果A与B互斥,则 P ( A∩B )=0 3.条件概率:P(A|B)?P(AB)P(B) 4.概率的乘法公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A) 5.事件的独立性:P(AB)=P(A)·P(B)
第五章(§5.3 离散型随机变量及分布,§5.4 连续型随机变量的概率分布) 1.离散型随机变量的概念,概率分布
二项分布 :X~B(n,p) P(X?k)?Ckknp(1?p)n?k,k?0,1,?,n
离散型随机变量:随机变量X的所有取值可以逐一列举出来。 2.连续型随机变量的概念 概率密度函数: P(a?X?b)??baf(x)dx,
?????f(x)dx?1
连续性随机变量:随机变量X的所有取值不能逐一列举出来。 分布函数:F(x)?P(X?x)??x??f(t)dt(???x???)
正态分布,标准正态分布:
P(a?X?b)????b????a??????????????
3.期望和方差
??E(X)??x2ipi,D(X)???xi?E(X)??pi
i?1i?1二项分布:X~B(n,p),EX?np,DX?npq
正态分布:X~N(?,?2),EX??,DX??2,
2
4. 二项分布的正态近似
对于一个二项随机变量X,当n很大时, P (x1? X ?x2) 可用正态分布近似为
P?x1?X?x2???Cnxpxqn?x??x?x1x2ba1?t2edt??(b)??(a) 2?,q?1?p
2x1?np式中:a?npq,x2?npb?npq
第六章
§6.1-6.2 统计量及抽样分布的定义 统计量的概念,样本均值和样本方差。
统计量:设X1,X2…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2…,Xn),不依赖于任何未知参数,则称函数T(X1,X2…,Xn)是一个统计量。
§6.3 几个重要分布
正态分布、?2 分布、t 分布、F 分布.
1. ?2 分布:对于n个标准正态随机变量X1 ,X2 ,Xn,则随机变量??2?yi?1n2i,称为具
2有n个自由度的?2分布,记为 ?~?2(n) Z2t?~t(n)Z~N(0,1),U~?(n),则 2. t 分布:若U与V独立,
U/n
223. F 分布:若X ,Y独立,X~?(n),Y~?(m),则 F?X/n~F(n,m) Y/m
§6.4 样本均值分布与中心极限定理 x~N(?,?/n)
中心极限定理:若总体分布未知或不是正态分布,但 E(x)=?, Var(x)=?2,则n 较大时?x 的渐近分布为N(?,?22/n)
第七章(§7.1 参数估计的基本原理 §7.2 一总体参数的区间估计). 点估计与区间估计的概念;
点估计:就是用样本统计量的某个取值直接作为总体参数的估计值
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减误差得到。 区间估计的计算:
1. 总体服从正态分布,且方差(?2) 已知,(大样本),总体均值 ? 在1-?置信水平下的置
信区间为
?ssx?z?或x?z( ?z(??未知未知))??22?22nnn
3