内容发布更新时间 : 2024/12/25 15:52:39星期一 下面是文章的全部内容请认真阅读。
第二章 定量资料的统计描述
对称分布:是指集中位置在中间,左右两侧频数大体对称。
偏态分布:指集中位置偏向一侧,频数分布不对称,分为正偏态和负偏态。 均数(mean):描述一组数据在数量上的平均水平,适用于对称分布,特别是正态或者近似正态分布的定量资料。 中位数(median),是指将一组观察值从小到大排列后,居于中间位置的那个数值。将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。
极差(range):是全部数据中最大值与最小值之差,它描述了数据变异的程度。又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.
标准差:反映定量资料离散趋势的指标,它能反映每一个变量值与均值的平均的离散程度,S越小,变量值与均值离散程度越小,均数代表性越好。 变异系数(coefficient of variation CV):标准差与算术均数的比值。
频数分布表的用途:
1揭示资料的分布类型
2由频数分布表可以看到频数分布的两个重要特征:集中趋势和离散趋势。 3便于发现某些特大或特小的可疑值。 4便于进一步计算统计指标和做统计处理。
描述集中趋势的指标:均数X,几何均数G,中位数M
描述离散趋势的指标:极差,方差,标准差,四分位数间距IQR,变异系数CV
第三章 正态分布
正态分布: 若X的频数曲线对应于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称)则称该指标服从正态分布。
正态分布的应用:归频数分布:制定参考值范围,作质量控制,统计处理方法的基础。
第四章 总体均数的估计和假设检验
抽样误差(sampling error):是由个体变异产生的,抽样造成的样本统计量与总体参数的差异。
标准误(standard error)是样本统计量的标准差。
均数的标准误(standard error of mean SEM)用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。
参数估计:是指用样本指标值(统计量)估计总体指标值(参数)。 点估计:就是用样本统计量直接作为总体参数的估计值。
区间估计confidence interval CI:按预先给定的概率(1-a)确定的包含未知总体参数的可能范围。该范围通常称为参数的可信区间或置信区间。
I类错误:拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用α表示。 II类错误:接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。 可信度:预先给定的1-a。为按预先给定的概率确定的包含未知总体参数的可能范围,含义
是包含总体参数的可能性是1-a。
检验效能(power of a test)(1-β)当两总体确有差异,按规定检验水准,所能发现该差异的能力。
中心极限定理:
1从正态总体N(μ,σ)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使从偏态总体中随机抽取,当n是足够大时(如n>50),X也近似正态分布。
2从均数μ,标准差σ的正态或偏态总体,抽取例数为n的样本,样本均数X的总体均数也为μ,标准差用σ(X)=?n
统计推断包括:参数估计和假设检验。
标准误的用途:可反映样品均数与总体均数距离远近,反映可靠性:与样本均数结合估计总体均数的可信区间;进行假设检验。
假设检验应注意的问题:1,要有严密的研究设计2,不同变量或资料应选择不同的检验方法3,正确理解“显著性”一词的含义4,做结论不能绝对化5,统计“显著性”与医学临床/生物学“显著性”。
可信区间与假设检验:1可信区间亦可回答假设检验的问题,2可信区间比假设检验可提供更多的信息。
第五章 方差分析 变量变换:将原始数据做某种函数转换,使各组达到方差齐性,也可使资料转换为正态分布。 方差分析的基本思想:就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。离均差平方和除以自由度得均方,组间均方与误差均方之比为F值,F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P。
方差分析的用途:两个或多个样本均数的比较,分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。
方差分析的应用条件:1,各样本是相互独立的随机样本,2各样本来自正态总体,3各处理组总体方差齐性。
变量变换:1目的:使方差性齐;资料正态化;还可用于曲线直线化;2类型:对数变换:平方根变换;倒数变换;平方根反正弦 变换等。
第六章 分类资料的统计描述
Relative number相对数:由两个有联系的指标之比组成的用以描述分类变量的统计指标。
Rate率:又称频率指标,说明某现象发生的频率或强度。率=发生某现象的观察单位数/可能
发生某现象的观察单位总数×100%
Proportion构成比:又称构成指标,说明某一事物内部组成部分所占的比重或分布。构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%
Ratio比:又称相对比。是A,B两个有关指标之比,说明A是B的若干倍或百分之几。比=A/B
Standard mortality ratio SMR标准化死亡比:指被标化组实际死亡数与预期死亡数之比。若SMR>1,表示被标化人群的死亡率高于标准组:反之若SMR<1,表示被标化人群的死亡率低于标准组。
Dynamic series动态数列:是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。
定基比:即统一用某个时间的指标作基数,以各时间的指标与之相比,是常用的动态数列分析指标之一。
环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。是常用的动态数列分析指标之一。
应用相对数应注意的问题:计算相对数的分母一般不宜过小,当例数小于30时,宜用绝对数表示为好;分析时不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。
标准化法的基本思想:当两组或多组率之间比较,其内部各小组的率明显不同,且各小组的观察例数的构成比也明显不同时,则不能直接比较两组或多组的总率,得出结论。为消除构成不同造成的影响。采取统一的标准构成进行调整,使之标准化,以具有可比性。 标准化率的计算(直接法):p’=
?NNipi或p’=???Ni??Pi ?N?Ni:标准组个小组例数:pi:被标化组各小组的率,N:标准组总例数 平均发展速度=nanao a0=基期指标;an:第n年指标
平均增长速度=平均发展速度-1
第九章 秩和检验
参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。
非参数统计:当样本来自总体分布型是未知的或总体分布与检验所要求的条件不符时,所使用的统计方法。不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。 非参数统计的优缺点:1应用范围广,简便,易掌握,对资料分布特征无特殊要求。 2当资料适合参数统计,而用非参数统计会损失部分信息,减低检验
效能。
秩和检验方法 配对设计差值的符号 秩和检验 假设 H0M=0 H1M≠0 α =0.05 方法 1, 差值由小到大编秩,人去T+或T-,查表确定p值。 2, N>25,用μ检验 注意事项 编秩时,绝对值相等者,取平均秩次 H0两总体分布相同 H1两总体分布不同 α =0.05 1.所有数据由小到大编秩,小ni组秩和为T。查表确定p值。 2. n1>10或n2-n1>10时,用μ检验 成组设计两样本比较的秩和检验 成组设计多样本比较的秩和检验 H0总体分布均相同 H1总体分布不同或不完全相同 α =0.05 1.所有数据由小到大编秩,求出各组秩和Ri计算H值。 2.当k=3,n≤5时查H界值表确定p,当最小n>5时,v=k-1. 查X2表,确定p。 内取平均秩次。 2.相同秩次较多时,需校正。 1.编秩时,相同数据在不同组内取1,编秩时,相同数据在不同组平均秩次 2.相同秩次较多时,需要校正。
第十一章 回归和相关
直线相关:或简单相关,描述两变量的相互关系,用于双变量正态分布资料。有正相关、负相关和零相关(非直线相关)系。
相关系数:或累积相关系数,说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。样本相关系数用r表示,总体相关系数用ρ表示。
直线回归:描述两变量间的依存关系。利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。
回归系数:或直线的斜率,样本回归系数b,总体回归系数β,b的统计学意义为:X每增
加/减少一个单位时,Y平均改变b个单位。
2
剩余:或残差,即实际值与估计值之差。SSB即?(Y?Y),为Y的离均差平方和。说明未
考虑X与Y的回归关系时Y的变异。
剩余平方和:SS剩,即?(Y?Y)2,它反映X对Y的线性影响之外的一切因素对Y的变异情况。也就是在总平方和中无法用X解释的部分,其值越小,说明直线回归的估计误差越小。 回归平方和:SS回,即?(Y?Y)2, 它反映由于X与Y的直线关系而使Y的总变异减小的部分。也就是在总平方和中可以用X解释的部分,其值越大,说明回归效果越好。 剩余标准差:指当X对Y的影响被扣除后,Y仍存在变异,此变异由抽样误差造成,与X无
关。用来反映Y的剩余变异。
预测:吧预报因子(X)代入回归方程对预报量(Y)进行估计,其波动范围可按求个体Y
值容许区间方法计量。 统计控制:利用回归方程进行逆估计,要求Y在一定范围内波动,可以通过控制X的取值
来实现。 决定系数:即r2=SS回/SS总.当总平方和固定不变时,回归平方和的大小取决于r2。
秩相关:又称等级相关,用双变量等级数据作直线相关分析,适用于1,不服从双变量正态
分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
??