统计学知识点整理 贺佳 下载本文

1、同质:医学研究对象具有的某种共性称为同质。

2、变异:对于同质的研究对象,其变量之间的差异称为变异。

3、个体:无论用何种方式收集资料,都要根据研究的目的确定观察单位,又成个体, 4、总体:根据研究目的,所有同质的观察单位某项观察值得全体成为总体。 5、样本:来自于总体的部分观察单位的观测值称为样本。 6、样本含量:抽取的观察值的个数称为样本含量。 7、参数:总体中全部观测值所得的特征值称为参数。 8、统计量:由样本获得的统计指标称为统计量。

9、抽样误差:统计学中,这种由抽样与变异引起的样本统计量与总体参数的差异,或者不同的样本的样本统计量之间的差别,称为抽样误差。

10、观察单位的研究特征称为变量,变量的观察结果称为变量值,多个变量值汇成资料。 11、随机变量:随机试验结果的所有取值称为随机变量或变量。

12、频率:在相同的条件下,独立的重复n次试验,随机试验的某一结果A出现f次,则称f/n为结果A出现的频率。

13、概率:当n逐渐增大时,频率f/n始终在一个常数左右微小摆动,称该常数为A出现的概率。 14、频数:当汇总大量的原始数据时,把数据按类型分组(组段),其中每个组的数据个数,称为该组的频数。

15、正偏态:集中位置偏向小的一侧叫正偏态,又叫右偏态 16、负偏态:集中位置偏大的一侧叫负偏态,又叫左偏态

17、医学参考值:医学参考值又称临床参考值,指绝大多数“正常人”的各种生理、生化指标、组织代谢产物及人体对各种实验的反应值等测量值的分布范围。

18、结构相对数,又称构成比:表示事物内部某一部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明各构成部分在总体中所占的比重或分布。

19、相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。 20、强度相对数,又称为率:说明单位时间内某现象发生的频率或强度。 21、定基比:报告期指标与基线期指标之比。 22、环比:报告期指标与前一期指标之比。

23、标准化法:要正确比较两种疗法的合计治愈率,必须先将两组治疗对象的病型构成按照统一标准进行校正,然后计算出校正后的标准化病死率再进行比较。这种用统一的内部构成,然后计算标准化率的方法,称为标准化法

24、辛普森悖论(Simpson paradox):在某种条件下,在分组比较中都占优势的一方,在总体评价中却并不占优势。

25、动态数列:是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。

26、平均发展速度,是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。

27、平均增长速度,是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。 28、抽样误差:在总体中随机抽样,由于个体间存在差异,抽得的样本计算出的指标不太可能恰好等于总体指标,因此通过样本推断总体总会有误差。这种由个体差异产生、随机抽样造成的样本统计量与总体参数间的差异以及样本统计量间的差异,称为抽样误差。

29、标准误:即样本均数的标准差,可用于衡量抽样误差的大小。 30、均数的标准误:样本均数的标准差也称为均数的标准误

31、参数估计:是指由样本统计量估计总体参数,包括点估计和区间估计两种方法。

32、置信区间,通常由两个数值即可信限构成。其中较小的值称可信下限,较大的值称可信上限,一般表

示为L~U。

33、可信区间:根据样本均数,按照预先给定的概率(1— )称为置信度所确定的包含未知总体参数的一个数值范围,这个范围称为总体均数的可信区间。

34、P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。

35、检验效能(power):1- ,当两总体确有差别,按检验水准 所能发现这种差别的能力

36、I 型错误:当假设检验结论为拒绝H0时,有可能拒绝了事实上成立的H0,此类错误称为 I 型错误 37、II型错误:当假设检验不拒绝H0时,有可能没有拒绝了事实上不成立的H0,此类错误称为II型错误 38、组间变异:各组的均数与总均数间的差异, 反映处理因素不同水平之间的作用,以及随机误差。 39、组内变异:每组的各个原始数据与该组均数的差异,反映了观察值的随机误差。 40、方差齐性:各样本的总体方差相等。

41、参数检验:假定随机样本来自某已知分布(如正态分布)的总体,推断两个或两个以上总体参数是否相同的方法。

42、单变量统计:用于比较某一定量变量(平均值)在两组或多组之间的差别如:t检验、方差分析 43、双变量关系的统计:在医学科研中,人们经常要研究两个变量之间的相互联系和相互依存关系。 44、简单回归:双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归

45、相关系数又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。 46、残差(residual)或剩余值,即实测值Y与假定回归线上的估计值^Y 的纵向距离。

47、I型回归:一是其中一变量为选定变量,另一变量为随机变量,要求选定变量在取值范围内取某值时,另一变量的取值是随机的,这类回归称为I型回归。

48、II型回归:两个变量都是随机变量,要求两变量中任一变量在某一取值时,另一变量取值是随机的,并且成正态分布,称双随机变量正态分布,这类回归称为II型回归。

49、b为回归系数,即直线的斜率。*b 的统计学意义是:X 每增加(或减少)一个单位,Y 平均改变的单位数。

50、决定系数:定义为回归平方和与总平方和之比

46、实验研究:是指研究者根据研究目的认为地对实验单位设置干预措施,按照对照、重复、随机化的基本原则,控制非干预措施的影响,通过对实验结果的分析,评价干预措施的效果 47、实验设计包括专业设计和统计设计两部分

48、处理因素:根据研究的目的而确定欲施加或欲观察的,并能引起受试对象产生直接或间接效应的因素。 49、实验效应:是处理因素作用于受试的反应,是研究结果的最终体现,也是实验研究的核心内容。 50、标准对照:是对照组采用现有标准方法或常规方法,或不专门设立对照组,而以标准值或正常值作为对照。

51、相互对照:是不专门设立对照组,而是实验组之间互为对照。

52、重复测量资料:是指不同处理条件下同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料。

53、滞留效应:前面的处理效应有可能滞留到下一次的处理。 54、潜隐效应:前面的处理效应有可能激活原本以前不活跃的效应。

55、学习效应:由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。

56、协方差:是用来度量两个变量之间“协同变异”大小的总体参数,即两个变量相互影响大小的参数,协方差的绝对值越大,两个变量相互影响越大。

57、修正均数:假定协变量取值固定在其总均数时的观察变量Y的均数。 58、协方差分析:将回归分析与方差分析相结合的一种分析方法。

59、多重线性回归:用回归方程定量的刻画一个因变量Y与多个自变量X1,X2,X3...Xn间的线性依存关系,称为多重线性回归。

60、哑变量:就是把定性资料(如多分类变量和等级变量)数量化后转化为定量资料的一种方法。 61、生存分析:是用来分析生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。 62、生存时间:是指临床随访研究中,从某起点事件到某终点事件所经历的时间跨度,常用符号t 表示。 63、起点事件:也称起始事件,是反映生存时间起始特征的事件 64、终点事件:也称失效事件,指研究者所关心的研究对象的特定结局,

65、完全数据:指在整个随访研究期间能够观察到终点事件,即从起点至终点事件发生(如死于所研究疾病)所经历的时间数据,它提供的时间信息是完整准确的。

66、截尾数据:指在随访过程中,由于某种原因未能观察到终点事件,即从起点至截尾点所经历的时间数据,是一种不完整数据。删失原因主要包括:失访、退出、终止(观察期结束时病人仍未出现结局)等。 67、生存概率:记作p,表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。 68、生存率又称累积生存率,指观察对象经历t个时段后仍存活的概率, 69、死亡概率:某单位时段期初的观察对象在该单位时段内死亡的可能性大小。 70、死亡率:单位时间内研究对象的死亡频率或强度。

71、死亡函数:记作F(t),指观察对象的生存时间T小于等于某时刻t 的概率。 72、死亡密度函数记作f(t),指观察对象在某时刻t的瞬时死亡率。

73、风险函数(hazard function):表示已生存到时刻t的观察对象在时刻t的瞬时死亡率。

74、中位生存期又称半数生存期,表示恰好有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。

75、诊断试验:临床上为给病人作出诊断(即确定或排除疾病)所应用的各种试验或检查方法。

76、灵敏度:真阳性率,是指患者中诊断为阳性的概率,反映真实情况为有病时诊断试验发现疾病的能力。 77、特异度:真阴性率,指非患者中诊断为阴性的概率,反映真实情况为无病时诊断试验排除疾病的能力。 78、假阳性率:亦称误诊率,指非患者错判为阳性的概率。 79、假阴性率:亦称漏诊率,指患者错判为阴性的概率。

80、似然比:患者人群中试验结果的概率与无病人群中试验结果概率之比。

81、阳性似然比:即真阳性率与假阳性率之比值。是说明病人中出现某种检测结果阳性的概率是非病人的多少倍

82、阴性似然比:假阴性率与真阴性率之比值。说明病人中出现某种 检测结果为阴性的概率是非病人的多少倍。

83、约登指数是反映诊断试验真实性的综合评价指标。YI=Se+Sp-1=1-漏诊率-误诊率YI越大说明诊断试验真实性越好,YI小于或等于0,表示诊断试验无任何临床应用价值。

84、一致率又称符合率、真实度,是样本的诊断结果与实际情况相符合的概率。 85、Kappa值表示两种试验结果的一致性的程度。

86、预测值是根据诊断试验的结果来估计个体患病和不患病的可能性大小。 87、阳性预测值:表示阳性结果中真正患病的概率。 88、阴性预测值:表示阴性结果中真正未患病的概率。

89、平行(并联)试验:同时多个试验进行诊断,有一个结果为阳性则判为患者。可提高Se,但Sp会下降,误判率增加。

90、系列(串联)试验:同时多个试验进行诊断,所有结果为阳性者才能判为患者,可提高Sp,但Se会下降,漏判率增加。一般先简单后复杂。

91、ROC曲线:以假阳性率为横坐标,以真阳性率为纵坐标绘制而成的曲线,其曲线下面积的大小表明了诊断实验准确度的大小。 简答:

1、医学统计学的研究步骤

四个步骤:统计设计、收集资料、整理资料、分析资料。

2、频数分布表的用途

描述频数分布的类型、描述计量资料分布的集中趋势和离散趋势、便于发现一些特大或特小的可疑值、便于进一步做统计分析和处理 3、正态分布的应用

制定医学参考值范围、统计质量控制、正态分布具有很多良好的性质 4、标准差的主要意义和用途

(1)描述资料的离散趋势(2)用于计算变异系数(3)用于计算标准误(4)结合均值与正态分布的规律估计参考值范围

5、应用相对数的注意事项

计算相对数应有足够数量即分母不宜太小、不能以构成比代替率、正确计算合计率、注意资料的可比性、对比不同时期资料应注意客观条件是否相同、样本率(或构成比)的比较应做样本率(或构成比)假设检验。

6、应用相对数的注意事项

(1)计算相对数应有足够数量即分母不宜太小(2)不能以构成比代替率(3)正确计算合计率(4)注意资料的可比性(5)对比不同时期资料应注意客观条件是否相同(6)样本率(或构成比)的比较应做样本率(或构成比)假设检验。 7、标准化法的基本思想是:

采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。 8、统计表的结构

(1)标题。概括表的主要内容,位于表的上方,通常需注明研究的时间与地点。(2)标目。包括横标目和纵标目,分别相当于表格的主语和谓语,有单位时要标明。横标目位于表的左侧,说明每一行数字的特征;纵标目位于表的右侧,说明每一列数字的含义。编制正确的统计表,横标目和纵标目连起来通常是一句通顺的话。(3)线条。简单的统计表通常采用三条或四条线表示,即顶线、底线、纵标目下的横线,若有合计项则应在合计项上面加一横线。复杂的统计表可再增加横线把多重纵标目分隔开。(4)数字。表中一律采用阿拉伯数字表示。无数字用“-”表示,数字缺失用“…”表示,数字为0时一定要填写为“0”,同一指标小数点位数要一致、位次要对齐。(5)备注 在表内需说明处用“?”号标记,并在表的下方用备注说明。 9、编制统计表的注意事项

(1). 标题应概括表的主要内容,标题前面通常应加以编号,若表中的数值单位都一样时可把单位统一写在标题后面。(2). 标目应文字简明,层次清楚。(3). 线条不宜过多,特别是不能有竖线和斜线。(4). 表中不宜留空格。(5). 备注不为表的必备内容。 10、统计图的结构

(1)标题 简明扼要地说明图的主要内容,置于图的正下方并加以编号,一般需注明时间、地点。(2)图域 即制图空间,一般用直角坐标系第一象限的位置表示图域(圆图除外),纵横比例一般以5∶7为宜。纵轴和横轴一般要有刻度,横轴尺度由左向右、纵轴尺度自下而上。(3)标目 包括纵标目和横标目,分别表示纵轴和横轴代表的指标,有度量衡单位时要标明。(4)图例 对图中不同颜色或图案代表的事物进行说明。图例通常置于图的右上角或图的正下方。 11、绘制统计图的注意事项

(1)首先应根据资料的性质和研究目的,选择合适的统计图。(2)比较不同事物时,要用不同的线条、图案或颜色表示,并用图例说明。(3)同一个统计图中,线条和图案不宜过多。(4)条图、直方图的纵轴坐标应从0开始。(5)绘制直方图时组距应相等。 12、t分布的图形与特征

①以0为中心,左右对称的单峰分布;

②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。