《医学统计学》复习资料与习题答案 下载本文

1.正相关 2.负相关 3.无相关

线性相关系数

在分析两个变量X与Y之间关系时,常常要了解X与Y之间 有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。

皮尔森(Pearson)相关系数的计算公式为:

相关系数r没有测量单位,其数值为-1≤≤+1 相关系数的计算方法

计算时分别可用下面公式带入相关系数r的计算公式中

例10.1 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,

34

r?rXY??(X?X)(Y?Y)?(X?X)?(Y?Y)2ii?2LXYLXX.LYY身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前 臂长之间的相关系数。 编号

身高(cm) 前臂长(cm)

XY X2 Y2

(X) (Y)

1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 11 166 合计

47 7990 28900 2209 42 7266 29929 1764 44 7040 25600 1936 41 6355 24025 1681 47 8131 29929 2209 50 9400 35344 2500 47 8366 31684 2209 46 8418 33489 2116 49 8820 32400 2401 43 7095 27225 1849 44 3174 28561 2116

500 86185 326081 22810

1891

相关系数的显著性检验

与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。

常用的检验方法有两种:

1.按自由度直接查附表11的界值表,得到P 值。 2.用假设检验法,计算统计量 进行线性相关分析的注意事项

⒈ 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。

⒉ 相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。

⒊ 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。 ⒋ 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。

35

相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X 、Y 中,当一个变量X 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数 r 表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示 Y 与 X 的线性关系。

根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。 进行线性回归分析的注意事项

⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。

⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X 。

⒊ 在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。 ⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。 第三节

线性相关和回归的区别与联系

⒈ 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布)。

⒉ 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。

⒊ 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。

⒋ 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。

第四节 等级相关

如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。 等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。 常用的等级相关方法是Spearman等级相关。

与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。

36

思考题与参考答案

《数值变量资料的统计描述 统计表与图》思考题

1.描述单变量资料的统计描述指标分哪两类,分别包括哪些指标? 2.试述平均数、标准差、变异系数的含意与用途。 3.什么是医学参考值?如何制定95%的参考值范围? 4.绘制统计表及统计图的原则与要求是什么? 5.常见的统计图有哪几种?它们的适用条件是什么? 《数值变量资料的统计推断》思考题 1.标准差和标准误有何区别和联系。

2.t检验和u检验的公式有哪些类型,在应用上有哪些异同? 3.在统计推断过程中,如何区别单侧检验和双侧检验。 4.可信区间和参考值范围有何不同? 5.假设检验和总体均数区间估计有何不同? 6.什么是一类错误与二类错误,有何关系? 7.方差分析的基本思想是什么? 8.描述t检验与F检验的适用条件。

《分类变量资料的统计描述与统计推断》思考题

1.常用的相对数指标有哪些?它们在计算和意义上有哪些不同? 2.率的标准化的意义和基本思想是什么? 3.试述率的标准误的意义和用途。

4.试述?检验的用途和各种?检验的适用条件。 5.列举R×C表?检验的注意事项。

6. 为什么不能以构成比代替率?请联系实际加以说明。 7. 应用相对数时应注意哪些问题?

《数值变量资料的统计描述 统计表与图》思考题

1、描述单变量资料的统计描述指标分哪两类,分别包括哪些指标? 答:单变量资料的统计描述指标分:

(1)集中趋势指标:包括算术平均数(简称均数)、几何均数、中位数与百分位数、众数、调和均数;

(2)离散趋势指标:包括全距、四分位数间距、方差、标准差、变异系数。 2、试述平均数、标准差、变异系数的含意与用途。 答:1、平均数

(1)含意:平均数是一类用于描述数值变量资料集中趋势(或平均水平)的指标,包括算术平均数(适用条件是资料呈正态分布或近似正态分布或对称分布)、几何平均数(适用于观察值非对称分布、其差距较大时,倍数关系或近似倍数关系)、中位数(适用于偏态分布、开口、分布

37

222