医学统计学 研究生期末考试版(包含大题) 下载本文

内容发布更新时间 : 2024/12/23 5:57:38星期一 下面是文章的全部内容请认真阅读。

一、名词解释 1总体与样本

总体:指根据研究目的确定的同质的所有研究对象的某项或某几项指标测量值的集合。根据总体集合所包括的元素分为有限总体和无限总体。

样本:指以某种方式按预先规定的概率从总体中随机抽取的、足够数量的、能代表总体分布特征的一部分观察单位某指标数据的集合。

联系:根据研究目的,从总体中抽取的部分有代表性的样本,可用样本统计量推断总体参数。 2标准差与标准误 标准差(S):描述一个变量的所有观察值与均数的平均离散程度的指标。表示单个观测值对某均数的离散程度,用于描述观测值的变异范围。标准差越大表明数据的离散程度越大。 变量值的标准差S???x?x?,阳性结果标准差S?np?1?p? n?12标准误:描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,相当于多个样本均数的标准差,反映的是样本均数之间的变异。表示样本统计量对总体参数的离散程度,用于推断估计总体参数的可信区间和假设检验。标准误越大表明样本的统计值越差,样本对总体的代表性越差。样本均数的标准误SX?S,样本阳n性率的标准误Sp?p?1?p? n3.X±1.96S与X±t0.05/2,v SX X即算术平均数,描述一个变量的所有观察值的平均水平,适用于频数分布对称数据。 S即标准差,描述一个变量的所有观察值与均数的平均离散程度。

SX即标准误,反映样本均数间的离散程度和样本均数与相应总体均数间的差异,是说明均数抽样误差大小的指标。

t0.05/2,v表示双侧尾部面积为0.05,自由度为v的t界值。

X±1.96S:表示从正态总体中抽大样本,观测值95%的波动范围,常用来制定参考值范围,判断某人的某一指标是否正常。

X±t0.05/2,v SX:表示从正态总体中抽大样本或小样本,总体均数95%的可信区间(置信区间),表示该区间有95%

的可能性包含总体均数。 4.计量资料与计数资料

计量资料:指通过度量衡的方法,测量每一个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量衡单位和多为连续性资料。 计数资料:指将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数而得到的数据资料,其特点是没有度量衡单位和多为间断性资料。 5 点估计与区间估计

点估计:就是直接用随机样本的样本均数X作为做为总体均数μ的一个估计,用样本的标准差S作为总体标准差δ的一个估计,即直接用样本统计量X±S作为总体参数μ±δ的估计值。

区间估计:是按预先给定的概率(1-α)用一个区间来估计总体均数,这个区间称为可信度(1-α)的可信区间(CI)或置信区间,预先给定的1-α称为可信度或置信度,常取95%或99%。 6回顾性研究与前瞻性研究

回顾性研究:现有结果,后回顾过去一探求接受因素的百分比,由果溯因,例:病例—对照研究。不能直接估计相对危险度,通常要通过计算优势比或比数比(OR)来近似估计相对危险度。

前瞻性研究:先设定因素,后经过一段时间研究后,分析暴露因素与疾病发生之间的因果关系。由因探果,例:队列研究。可直接估计相对危险度(RR)。 7完全随机设计与完全随机区组设计

完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。

两种实验设计方案均为单因素实验设计。区别是:①两者观察对象随机分配方式不同;②统计分析方法不同;③误差内涵及大小不同;④检验效能不同。

8独立测定数据与重复测定数据 独立测定数据:对一群观察对象的每个个体都独立测定一次得到的一个测定值,各测量数据之间无关联。 重复测定数据:对一个样本同时或不同时测定得到的多个测量值,各测量数据之间有关联。 9假设检验中的α与P α:指检验水准(显著性水准),在原假设成立的前提下,规定它拒绝原假设可能要犯I类错误的最大概率水平。是预先规定的判断小概率事件的概率尺度,通常规定为0.01或0.05。

P :指从已知总体中(或假设总体中)抽得统计量达到当前统计量这么大及比这绝对值还大的总概率,若以当前统计量为拒绝域临界点,在规定α前提下,实际预拒绝H0可能犯Ⅰ类错误的概率。

假设检验规定,如果一次实验结果P>α,则不拒绝H0,统计结论为“差别没有统计学意义”。 如果一次实验结果P≤α,则拒绝H0,统计结论为“差别有统计学意义”。 10调查研究与实验研究 调查研究:指研究者较被动地进行观察,希望尽可能减少或控制非实验因素干扰的研究。它无法将研究对象随机分组,样本量大,混杂因素多,用多因素分析。

实验研究:指研究者主动地安排实验因素,控制实验条件,排除非实验因素干扰的研究。混杂因素少,可用单因素分析。

二者关系:调查研究常为实验研究提供线索,而实验研究成果又须回到现场实践中去验证。 11.r与b r:即样本直线相关系数。计算公式为

r???x?x??y?y?,表示具有直线关系的两个变量间相关的密切程度与方??x?x??y?y?22向。r>0为正相关。要求x,、y服从双变量正态分布。常用于流行病学。 b:即样本直线回归系数。计算公式,表示当x变化一个单位时y的平均改变的估计值。b>0时xx?y?xy??nb???x??x?n22↑→y↑;b<0时x↑→y↓。要求x,y服从双变量正态分布或y服从正态分布。常用于实验室研究。 联系:r无单位,b有单位;r与b符号一致,假设检验也等价。 12敏感度与特异度

敏感度:某病中真病人的阳性率,即真阳性率。表示对真病人的确诊能力。敏感度值愈高,漏诊的可能性愈小,因此该值愈大愈好。

特异度:某病中非病人的阴性率,即真阴性率。表示对非病人的鉴别和排除能力。特异度值愈大,诊断为假阳性的概率越小,误诊的可能性愈小。 13准确度与精密度

准确度:测定值与真实值的接近程度,用于说明测定方法有无系统误差。一般采用回收试验,计算回收率度量其大小。回收率愈接近100%,则准确度愈高;当回收率偏离100%较大时,则测定方法存在系统误差。回收率=(实测值-原有量)/加入量。

精密度:指对同一标本进行多次重复测定时,测定值与平均测定值的接近程度,属于随机误差,常用标准差或变异系数表示。此值愈小,说明测定方法重现性愈好。

联系:准确度与精密度均为评价检测方法可信赖程度的指标,其中以准确度为首要指标,当测定方法存在系统误差时,即使其精密度高,也不能采用此方法;当测定方法的精密度差,其准确度也不会高。 14关联性分析与趋势性分析 关联性分析:研究具有相互作用(对称关系)或单向作用(不对称关系)的两变量取值或取值频数是否存在影响与联系的统计分析方法。关联性分析较趋势性分析内涵更宽广,适用资料广,但量化含义相对粗犷,适合于社会学调查资料分析,对于定类变量一般不计方向。

趋势性分析:针对一个变量随同另一个变量的数量变化有规律性地发生线性、非线性数量协变关系,研究其协变关系规律的统计分析方法。存在自变量与应变量的。 15 阳性预报率与阴性预报率 阳性预报率(PV+):表示预测阳性结果的正确率,即诊断结果为阳性者实际患病的概率。PV(+)=a/a+b。阴性预报率(PV-):表示诊断结果为阴性者实际未患病的概率。PV(-)=d/c+d 两者是结构预报率的表示方法。 二,填空题

1.科研设计的三点设计要素:处理或观察因素、对象、效应指标。

2.科研设计四个基本原则:随机化、设置均衡对照、足够的样本含量、盲法原则。

3.六性分析:估计性、聚积性、差异组间对比性、关联性、越势性、协调性。

4.7种基本设计方案:完全随机,随机区组,重复测定,交叉、析因,正交、多元(大T方)。 5.常用抽样方法:单纯随机抽样,系统随机抽样,分层随机抽样,整群随机。 6.量变类型:a.数据表达的种类:正态、非正态(单方偏态),例:若资料测量值经正态性检验推断为正态分布,用均值表达其平均水平;若测量值呈单峰偏态分布,用中位数表达其平均水平;若测量值是属于血清学滴度资料或者lgX呈正态分布,则用几何均数表达其平均水平。b.若自变量是等级成计量变量,结果是患病率、可做趋势性卡方检验。C.完全随机设计的两(多)组等级资料对比分析采用秩和检验。 7.临床参考值(选择题):什么分布、单|双侧,95%区间,不同人群组间差别。 8. X±S,中位数,四分位数间距。

9.差异的对比分析四种:均衡性检验、数据的描述、差异对比性分析正确方法,安全性描述。

10.等级资料的对比分析:水平比较不能用卡方检验,若资料结果变量是等级资料不能用卡方检验,只能构成比较才能用卡方检验。

11.结果指标是多于2个的对比性分析:结果变量≥2个指标时用大T方检验(选择题) 12.单向有序列联表

13.双向有序列联表:双相等级的列联表可以做相关分析。 14.诊断试验设计要点:具备“金标准”,要有随机对照试验和真实两组人群,执行试验者盲法检测,同期检测。 15.诊断实验3类指标:基本标准:敏感度、特异度。

综合指标:准确度、尤登指数、阳性似然比、阴性似然比。 其他指标:结构预极率,人群预极率。 三、应用题:

1.多组比较(I 类错误增大) 1)三个独立样本为什么不能用两两T检验。

k

T检验主要用于剂量资料两均数比较的假设检验中,T检验时,犯I 类错误概率计算 α' =1—(1—α) (k 重复次数),若三个独立样本用两两T检验,则k ≥ 2。因α≥ 0.05,常致α'>0.05,因此犯I 类错误概率较大。 2)组内分组资料是几个因素的?至少两个因素,且不是单因素的。

1.信度考评,指问卷测量结果的可靠性、稳定性和一致性,即精确度○2.效度考评,2.问卷的考评内容(四种):○3.反应度考评 ○4.可即问卷的有效性和正确性,即准确度,效度越高说明问卷结果越能反映所测对象的真正特征○

接受性评价,指被测定对象对问卷的接受程度。

1.ROC曲线以真阳性率(灵敏度)作纵轴,以假阳性率(特异度)作横轴,而画出的曲线。○2.3.ROC曲线描述:○3.ROC曲线的绘制采用两种不同的方法:一是由原始数据分组后直接绘制,二图形似曲线,且抛物线偏左上方。○

4.ROC曲线偏左上方,曲线下的面积越大,诊断的准是利用适当的模型通过与原始数据拟合而形成的光滑曲线。○

5.面积用A表示:一般0.5

高。

1.恒定系统误差:指误差数值不随某些测量4.实验误差中系统误差:方法学研究的恒定系统误差和比例系统误差○

条件变化的系统误差,表现为恒定线性。比例系统误差是在系统误差中与真实值固定形成比例的一种误差,表现

2.一次固有加标值试验,只能获得一次回收率,用以推算一次恒定误差。○3.多次不同加标为周期性和非线性。○

值试验,以加标值为横轴、回收率为纵轴做直线回归分析,可获得某一定线性加标范围内恒定误差和比例系统误差系数。

5.正交设计解决什么问题?正交设计是最佳的组方研究设计方案,用于因素和水平较多时进行最佳因素和水平组合筛选的研究。

6、假设检验的目的、原理,p与α含义。目的:推断待比较的总体参数、中位数、方差是否一致,为新发现、新结论提供统计学依据,对总体进行推断。 原理:小概率事件在一次实验中一般不发生。P值的含义:在规定α的前提下,实际欲拒绝H0可能犯I 类错误的概率。

7、聚集性分析的目的,利用那几个分布 目的:考察随机事件的发生是否独立,观察数据资料的分布是否符合二项分布,泊松分布或负二项分布。

8、单结果变量分析分类:1两组结果变量分析 2多组 3二项分布、正态分布、大丁方、卡方检验。

9.预报和控制的区别:不得考:预报由自变量x预报应变量y;y求x则控制是错误的,控制是绘出y的一个控制线,以增进x的容许线。

10.似然比:阳性似然比:指真阳性率与假阳性率之比,说明病人中出现某种检测结果为阳性的概率是非病人的多少倍,LR(+)=(a/a+c)/(b/b+d).阴性似然比:指假阴性率与真阴性率之比,说明病人中出现某种检查结果为阴性的概率是非病人的多少倍。LR(-)=(c/a+c)/(d/b+d).

11.原理 多重线性回归:最小二乘原理,Logistic回归原理:Logistic变换,判别分析原理:类间差/类内差比值最大,cox回归原理:考察生存函数和风险函数之间的关系。