统计学名词解释 下载本文

3若表格有一个方向按多个等级分类,则称单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。

四格表的确切概率法的应用条件: 1, 四格表内理论频数T<1 2, 样本含量n<40

2

3, ?检验后所得概率P接近检验水准α。

试题: 一、 名词解释:

1, coefficient(相关系数):又称积差相关系数(product-moment correlation),是说明

具有直线关系的两个变量间,相互关系的密切程度与相关方向的指标。

2, proportion(构成比):又称构成指标。说明某一事物内部的各组成部分所占的比重

或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数

*100%,表示方法有百分数等。

3, coefficient of variation (变异系数):常记为CV。它被定义为标准差与算术平均数

之比。即CV=S/X×100%。它描述了相对于算术均数X而言。标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。 4, population(总体):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。 5, standard error SE(标准误):样本均数的标准差也称均数的标准误(standard error of mean)它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,

说明均数抽样误差的大小。 6, incidence rate(发病率):表示一定时期内,在可能发生某病的一定人群中新发生的

某病例数。其计算公式为:某病发病率=该期间新发生的某病例数/一定期间内可能发生某病的平均人口数×100%

7, Chi-square(?2值)是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。

2

8, Chi-square test(?检验):是一种用途较广的假设检验方法,即推断两个及多个总

体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。 9, Normal distribution(正态分布):若X的频数曲线应用于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称),则称该指标服从正态分布。 10, Mortality rate(死亡率):指某地某年平均每千人口中的死亡数,它反映居民

总的死亡水平。死亡率=某人群某年(因某病)总死亡人数/该人群同年平均人口×

1000

简单题

1:应用相对数应该注意什么?

计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。

2,方差分析的基本思想?

根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P.

3,相关和回归的区别和联系?

直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。5单位不同,回归系数b有单位,相关系数r没单位。

直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P=SS回/SS总,回归平方和越接近总平方和,R2越接近1

2

4,行X列表?检验注意事项。

答:1.不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5;2.当检验有统计学意义(拒绝H0)时,只能说明各总体率或构成比之间总的来说有差别,但不能说明它们之间都有差别,成两者之间有差别,若要进一步解决此问题,可用?2分割法。3,若表格有一个方向按多个等级分类,则称单向有序行X列表,当等级数大于3时,一般用秩和检验分析更为适宜。

5,可信区间和假设检验的关系?

可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。 6,二项分布应用条件?

答:1.每次试验结果,只能是两个互斥的结果之一(A或非A)。2.每次试验的条件不变,即每次试验中A发生的概率不变,均为x,3.各次实验独立,即一次试验出现什么样的结果与前面已出现的结果无关。

7.t检验的应用条件,方差不齐时的处理方法?

答:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。若两总体方差相等,则直接用t检验。若总体方差不等,可采用t’检验或变量变换或秩和检验等方法处理。

8.实验设计的几个原则,要素,方法,适用范围,优缺点? 答:原则:1对照原则2重复原则3随机化原则。 要素:1处理因素2受试对象3实验效应。

2

方法和优点:1随机对照实验:是将受试对象随机分配到试验组和对照组,通过比较分析回答研究假设的问题,该设计既贯彻了随机化原则,又设有对照。优点是A有效的避免了某些非实验因素的影响B增强了各比较组的可比性,使结论更可靠C有利于所比较总体间存在真实差异D满足了随机化原则,更能反映真实差异。2配对设计:将实验对象按一定条件配成对子,再随机分配每对的两个对象接受不同的处理方式。优点最大限度排除了非处理因素的干扰;降低个体差异水平;提高实验效果;增强均衡性。3交叉设计:是一种特殊的自身对照设计。优点:A节约样本含量B能够控制时间因素及个体差异对处理方式的影响C每个实验对象同时接受了实验因素和对照,考虑了每个患者的利益。4.配伍设计:是将条件相近的实验对象配成一组。优点:增强了各组间的均衡性,可进一步控制混杂性偏倚。

计量数据统计描述和统计图表的是非题

1. 在同一连续分布总体中作随机抽样,理论上样本均数越大,则样本标准差

s越大。(错) 2. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本标准差越小(错) 3. 对称分布就是正态分布。(错)

4. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本极差

越大。(对) 5. 样本中位数不受样本中的极端值影响。(对)

6. 正态分布资料也可用中位数描述其中集中趋势(中心位置)。(对) 7. 分组的连续分布资料,计算百分位数要求组距相等。(错)

8. 第80百分位数ρ80表示有80%变量值比它大。(错) 9. 对于连续分布资料,单位相同时,也可用变异系数比较两个变量的相对离

散度。(错) 10. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,则从样本算得的变异系数越小。(错) 11. 对于计量数据,不应按分组方式决定是否计算机和均数。(对) 12. 若男女儿童平均是高接近,可用标准差s来比较其绝对离散度。(对) 13. 四分位数间距也是描述连续分布数据离散度的指标。(对) 14. 自由度p(-∞,∞)时的t分布就是标准正态分布。(对) 15. 标准正态分布常用N(0,1)表示。(对) 16. 严格地说, 是一定以0为中心,左右对称。(错) 17. 标准差是位置系数。(错)

18. 对于连续分布数据,样本标准差的均数理论上等于总体标准差。(错) 19. 对于连续分布数据,样本方差的均数理论上等于总体方差。(对) 20. 只有当样本含量很大时,连续分布数据的样本均数的平均数理论上才等于总体均数。(错)

21. μ±1.96σ表示任何分布计量指标的95%变量值所在范围。(错) 22. 正态分布总体,理论上P,P和μ±1.96σ范围是一样的。(对) 23. 直方图是描述连续分布变量频数分布的统计图。(对) 24. 构成比资料可画圆图。(对)

25. 线图可以描述一个计量指标随另一个计量指标变化而变化的趋势。(对) 26. 半对数线图可以描述和比较事物的发展变化的相对速度。(对)

27. 表示某中学高三年级10个班学生近视比例的比较,应用线图(错,条图) 28. 描述200人血压饿分布,应画直图。(错,圆图或百分条图)

29. 在同一正态总体N(μ,σ)中随机抽样,两个变量值X1和X2之差d服从

正态分布N(μ,σ)(错) 30. 两正态分布变量XN(μ1,σ1)和X2N(μ2,σ2)之差的方差是σ12-σ22(错)。 31. 比较2000年年底某地三种疾病的患病率,宜绘制之线图。(错,条图) 32. 描述300人肺活量与身高关系可画散点图。(对) 33. 纵坐标取等比尺度而横坐标取等差尺度时的线图成为对数线图。(对) 34. 一般的正常值范围是指95%正常人的该指标所在范围。(对) 35. 理论上正态分布的标准差不会大于平均数。(错) 36. 变量值有负数时不能直接计算几何均数。(对) 37. 均数大于0时所计算的变异系数才有意义。(对)

38. 利用组距不相等的频数分布表资料计算样本均数x和样本标准方差s,宜

用加权法。(对) 39. 在同一连续分布总体中作随机抽样,理论上样本含量n越大,样本四分位数间距越大。(错)

40. 超出95%正常值范围的个体都是异常个体。(错)