速度变化;平均发展速度是各环比发展速度的几何均数,说明其相对数在一个较长时期中逐期(如逐年)平均发展变化的程度。
动态数列的两个要素:时点或时期、统计指标 可以进行预测的统计指标有哪些?
相对比、动态数列(根据平均发展速度公式计算几年后达到的指标)、线性回归(利用回归方程进行统计预测,预测就是将预报因子(自变量X)代入回归方程对预报量进行估计)
第四章 统计表与统计图
统计表的结构
1、标题2、标目3、线条4、数字5、备注 编制统计表应注意的事项 1、简明扼要,重点突出。
2、合理安排主语和谓语的位置。 3、表内数据要认真核对、准确可靠。 依次写出箱式图中涉及到的各个取值。
答:由大到小的次序为:极大值、P75、中位数、P25和极小值。 直方图中各矩形的高度等于频数(或频数),对吗?
答:对于各组距相等的情形,该说发是对的。若某些组段的组距与多数阻段所取组距不同时,例如前者是后者的k倍,则该不等距组段的高度为频数(频率)除以k。确切地说,组段对应的面积等于频数(频率)。 统计表的列表原则是什么?
答:一是重点突出,简单明了;二是主谓分明,层次清楚,符合逻辑。 线图和半对数线图的主要区别是什么?
答:线图的纵轴尺度为算术尺度,用以表示某指标随时间的变化趋势;半对数线图的纵轴尺度为对数尺度,用以表示某指标随时间的增长或减少速度。
绘制统计表、统计图的原则和基本要点是什么?
答:编制统计表的原则:①重点突出,一张表只表达一个中心内容。不要把过多的内容放在一个庞杂的大表里,宁愿用多个表格表达不同指标和内容。②统计表就如完整的一句话,有其描述的对象(主语)和内容(宾语)。通常主语放在表达左边,作为横标目;宾语放在右边,作为纵标目。由左向右读,构成完整的一句话。③简单明了,文字、数字与线条尽量简洁。
编制统计表的要求:①标题:概括说明表的内容,必要时注明时间和地点,字数一般不超过20个。常见缺点:过于简单;过于繁琐;题意不确切、具体。②标目:简明确切,有单位的要注明单位。常见缺点:标目层次过多;含意不确切;有单位的标目没有注明单位。③线条:④数字:一律用阿拉伯字表示;准确;整齐:同一指标的小数位数应一致;位次对齐。表内不留空格:暂缺或未记录,用?表示;不应出现数字,用 “—”表示;数字为零,用“0”表示。⑤备注:非表中必要的元素,一般不列入表内,必要时可用“*”标出,写在表的下面。
绘制统计图的原则:①标题:放在图的下方。②标目:横标目—说明横轴的内容,通常为分组因素;纵标目—说明纵轴的指标和单位,通常为被描述事物的指标。③刻度:坐标轴的刻度单位。④图例:对统计图中的线条、颜色进行说明,位于右上角或下方中间位置。
绘制统计图的要求:①按资料的性质和分析目的选用适合的图形:间断性资料 — 条图、圆图、百分条图;连续性资料 — 线图、直方图。②每一张统计图都要有标题,简明扼要地说明图形要表达的主要内容,必要时应注明资料收集的时间和地点。标题一般位于图的下方。③条图、散点图、线图和直方图都有纵、横坐标轴,要标明尺度,纵轴尺度自下而上,横轴尺度自左而右,数量一律由小到大,并等距标明。条图与直方图纵坐标从0开始,要标明0点位置。纵横坐标长度的比例一般为5?7。④比较不同事物时,宜选用不同的线条或颜色表示,并附图例加以说明。图例一般放在图的右上角的空隙处,也可放在图下方的适当位置。 在统计描述中,统计表和统计图分别起着什么作用?
答:在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。
常用的统计图有哪几种,各适用于什么类型资料?
答:常用的统计图有直条图、直方图、圆图或构成比直条图、线图和统计地图。直条图适用于比较独立分类组的统计指标,直方图适用于描述频数分布,圆图和构成比直条图适用于描述构成比,线图适用于描述某统计量随时间或另一
统计量变化而变化的趋势,统计地图适用于描述统计指标的地理分布。 条图:用等宽直条的长短表示相互独立的各项指标数量的大小。 百分条图:用于表示事物内部各部分的比重或所占比例
圆图:用途与百分条图相同,它用圆的面积表示事物的全部,用各扇形的面积表示各个组成部分所占比例 线图:是用线段的升降表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于连续型变量 半对数线图:用于表示事物的发展速度(相对比)。其横轴为算术尺度,使线图上的数量关系变为对数关系。 散点图:用点的密集程度、趋势表示两变量间的相关关系。 直方图:常用于表示连续型变量的频数或频率分布。 统计地图:主要用于表示某种现象在地域空间上的分布 箱式图:用于描述连续变量的分布特征。 统计表与统计图有何联系和区别?
答:统计表和统计图都是清晰地、有条理地展示数据,让读者易于领会统计资料的核心内容,易于做比较分析。统计图将统计数据形象化,可以给读者留下深刻的印象。但统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。 统计表和统计图的用途是什么?
统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,便于分析和比较。
第五章 常用概率分布
医学参考值范围确定的方法是什么? 答:百分位数法和正态分布法。
正态分布曲线的位置与形状的特点? 答:(1)关于χ=μ对称。(2)在χ=μ处取得该概率密度函数最大值,在χ=μ±σ处有拐点。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”; σ越小,数据越集中,曲线越“瘦高” 控制图的基本原理。
答:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布;依据标准正态分布曲线下面积的分布规律性,确定出现概率非常小的若干情况作为异常标准吗如果出现相应结果则判为异常。 正态分布的特征
1、正态曲线在横轴上方,均数处最高。2、正态分布以均数为中心,左右对称。 3、正态分布有两个参数:均数μ是位置参数、标准差σ是变异度参数。
4、正态曲线下面积有一定的分布规律。5、有些指标不服从正态分布,但通过适当的变换(transformation)后服从正态分布
标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)
不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
t分布为抽样分布,标准正态分布(u分布)为理论分布。t分布比标准正态分布的峰值低,且尾部翘得要高。随着自由度的增大,t分布逐渐趋近于标准正态分布。即当自由度v→∞时,t分布→标准正态分布。 t分布与正态分布的关系
自由度v较小时, t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积 当自由度 ???时, t分布逼近于标准正态分布。 正态分布的应用
1、估计医学参考值范围2、质量控制图:利用正态分布规律检查和确认可疑值的性质。 正常波动或系统误差。3、正态分布是很多统计方法的理论基础
(1)估计频数分布,(2)制定参考值范围,(3)质量控制:为了控制实验中的检测误差,常以±2 s作为上、下警戒值,以±3 s作为上、下控制值。(4)统计分析方法的基础。
什么是医学参考值范围?估计医学参考值范围如何正确选用统计方法?
答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。如95%的参考值范围包括了95%的观察值,而有5%的观察值不在这一范围内。 估计医学参考值范围确定方法:
(1)正态分布法:适用于正态或近似正态分布的资料
X?u?S根据正态分布规律,将正态曲线下的百分面积
(相当于正常值范围的百分数)在横轴上的对应点作为正常值范围的界值
(2)百分位数法:该法是利用百分位数计算正常值范围,可用于任何分布资料,尤其偏态分布资料。双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P5
简述医学参考值范围含义并写出95%双侧医学参考值范围的两种计算方法及公式。
答:医学参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。
95%双侧医学参考值范围的两种计算方法及公式 (1)正态分布法:1-α参考值范围公式,双侧:X ?1.96S;单侧:> 或<。
(2)百分位数法:1-α参考值范围公式,双侧:(P2.5, P97.5) ;单侧:> P5或< P95。 试述正态分布的面积分布规律。
答:正态分布的面积分布规律是:(1)X轴与正态曲线所夹面积等于1或100%;(2)区间 的面积为68.27%,区间 的面积为95.00%,区间 的面积为99.00%。
第六章 参数估计基础
标准差与标准误有何区别和联系?
区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。②标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,①s→σ(恒定)。②标准误减少并趋于0(不存在抽样误差)。
(3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:参数估计和假设检验。 联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 试比较标准差和标准误的关系与意义。
答:标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。
试举例说明均数的标准差与标准误的区别与联系。
答:例如某医生从某地2000年的正常成年男性中,随机抽取25人,算得其血红蛋白的均数 为138.5g/L,标准差S为5.20g/L,标准误 为1.04g/L。在本例中标准差就是描述25名正常成年男性血红蛋白变异程度的指标,它反映了这25个数据对其均数的离散情况。因此,标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。本例均数的标准误 ,此式将标准差与标准误从数学上有机地联系起来了,同时看出通过增加样本含量方法可以减少标准误。 t分布图形的特征? 答:(1)单峰分布,以0为中心,左右对称;(2)ν越小,t值越分散,曲线的峰部越矮,尾部越高;(3)随着ν逐渐增大,t分布逐渐接近标准正态分布;当ν趋向∞时,t分布趋近标准正态分布。 t分布曲线是单峰的;关于t = 0对称;自由度越大, t值越小 t分布的界值 给定自由度v,t分布曲线的双侧尾部面积为?时对应的t值,记为并称 为t的双侧界值 ;单侧界值 :一侧尾部面积为?时对应的t值;对称性得:单侧曲线下面积=2双侧曲线下面积;同样的尾部面积,t分布的界值要大于标准正态分布的界值
总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?
答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。 样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?
答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)前者表示均数变异的指标,后者是表示观察值变异的指标。(2)用途不同,标准差与均数结合估计参考值范围,计算变异系数,和标准误等;标准误用于估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n足够大时,标准差趋向稳定,而标准误随的增大而减小。联系:当样本量n一定时,标准误随标准差的大小而变化。
用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?
答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。
满足什么条件时可以采取正态近似法估计总体概率的置信区间?
答:当n足够大,且样本频率p和1—p均不太小时,如np与n(1—p)均大于5时,可用正态近似法求总体概率的置信区间。
参考值范围与置信区间有何区别? 答:区别:(1)意义不同:参考值范围是指通知总体中包括一定数量(如95%或99%)个体值的估计范围。可信区间是指按一定的可信度来估计总体参数所在范围。(2)计算方法不同。
可信区间:从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的置信区间内, 这种估计方法会冒5%犯错误的风险。
参考值范围:指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。 抽样误差的结果
各样本均数不一定等于总体均数;样本均数间存在差异;样本均数的分布规律:围绕总体均数上下波动;样本均数的变异:由样本均数的标准差描述。 抽样误差来源:个体变异;抽样
表现:样本统计量与总体参数间的差异;样本统计量间的差异
何谓抽样误差?分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。
答:总体中的个体间存在变异,在进行抽样研究时,样本的统计量不等于总体参数,这种误差称为抽样误差。均数的
?X抽样误差:常用样本均数的标准差 (简称标准误)反映均数抽样误差的大小。 (理论值), (估计值)。
SX?率的抽样误差:常用率的标准误 反映率的抽样误差的大小。 (理论值), (估计值)。 SX??x?nn抽样研究中如何才能控制或减小抽样误差? 答:合理的抽样设计,增大样本含量。
何谓抽样误差?为什么说抽样误差在抽样研究中是不可避免的?
答:由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间的差异
因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分的结果与总体的结果存在差异彩是不可避免的 什么是可信区间,可信区间有哪两个要素?
答:可信区间:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI),又称置信区间。
可信区间的两个要素:①准确性:又称可靠性,反映为可信度1-α的大小,显然可信度愈接近1愈好。②精确性:常用可信区间的长度CL-CU来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-α取值有关。在样本例数确定的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,可减少区间长度,提高精度。
第七章 假设检验基础
何谓假设检验?可以举例说明。
首先建立检验假设,然后在该假设下进行随机抽样,计算得到该统计量及其极端情形的概率,如果概率较小,则拒绝该假设,如果概率不是小概率,则接受该假设,这个过程称为假设检验。 假设检验的理论依据是什么?(或者问基本思想) 答:采用逻辑上的反证法,利用“小概率思想”。小概率思想是是指概率事件(p<0.05或p<0.01)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;如可能性大,则还不能认为假设不成立。
假设检验采用小概率反证法的原理,根据研究的目的提出检验假设,根据现有的样本信息,基于小概率事件的推断原理,判断是否有充分的证据支持或否定预先设定的假设 假设检验的一般步骤。
答:(1)根据研究目的建立假设,确定检验水准
(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量 (3)确定P值,做出推断结论