直线相关系数的意义 直线相关系数r的值,在任何情况下总在﹣1与﹢1之间,而在医学研究中由于影响因素众多,很少有完全相关的情况;相关系数r的正负号表示相关的性质,即正相关、负相关以及零相关;相关系数r的绝对值大小表示相关程度的大小(强弱),愈接近于1,相关程度愈高;愈接近于0,相关程度愈低。 线性相关应用中应注意的问题
1、样本的相关系数接近零时并不意味着两变量间一定无相关性。2、一个变量的数值人为选定时莫作相关。3、出现异常点时慎用相关。4、相关未必真有内在联系。5、分层资料盲目合并易出假象。6、注意变量取值的离散程度。 秩相关适用于下列资料:(1)不服从双变量正态分布(2)总体分布型未知(3)等级资料 Spearman等级相关:它是用秩相关系数rs说明两变量间相关关系的密切程度和方向。 何为两属性相互独立?书P203
所谓两属性X和Y互相独立(independence),是指属性X的分布的概率与属性Y的概率分布无关,否则称这两种属性之间存在关联性。从概率的角度考虑,独立是指在交叉分类表每一格子中同时具有两种属性的联合概率等于相应属性的边际概率的乘积。 列联系数。书P204
关于两个分类变量关联程度,我们可用Peason列联系数(contingency coefficient)来描述。列联系数介于0与1之间,表示两种属性相关的密切程度。理论上也应就总体列联系数是否为0作假设检验,但这个假设检验等价于上述两变量关联性分析的卡方检验。
相关系数和列联系数。书P211小结4、5
对两个随机变量进行关联性或相关性分析时,如何正确选择统计分析方法(写出相应的公式)?
答:①两变量为数值变量时:a、若两变量均为正态随机变量,且其散点图呈直线趋势,则用直线相关分析,计算样本相关系数:
然后对其进行假设检验: H0:ρ=0 H1:ρ≠0 α=0.05 ,v=n-2
b、若两变量为非正态分布,则用等级相关分析。将两变量各自按由小到大的顺序排秩,编上秩次,求各对数据的秩次之差,记为di。按下式计算Spearman等级相关系数: 然后对其进行假设检验: H0:ρ=0 H1:ρ≠0 α=0.05
当n≤50时,查Spearman等级相关系数界值表;当n>50时,按下式计算检验统计量u: ,根据标准正态分布的概率函数确定P值,作出推断结论。 ②两变量为分类变量时:
a、两变量均为无序多分类变量时:用行×列表的?2检验: H0:两变量无关联 H1:两变量有关联 α=0.05
若拒绝H0,接受H1,可计算Pearson关联系数:
b、两变量均为有序多分类变量时,可用Spearman等级相关分析,方法同前。 随机区组设计多个样本比较的Friedman M检验,备择假设H1如何写?为什么?
答:H1写为多个总体分布位置不全相同。H1不能写为多个总体分布不全相同。因为Friedman M检验对于多个总体分布的形状差别不敏感,只对其位置差别敏感。
量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖于X而变化。③意义上:r说明具有直线关系的两变量间相互关系的方向和密切程度;b表示X每变化一个单位所导致Y的平均变化量。④计算上: , 。⑤取值范围:-1≤r≤1,- ∞<b<∞。⑥单位:r没有单位,b有单位。 Pearson积距相关与Spearman等级相关有何异同?
答:Pearson积距相关与Spearman等级相关的应用条件不同,前者要求数据服从二元正态分布,属于参数方法;而后者可不满足正态分布条件,为非参数法;相同点都是用来解决两变量间的线性相关程度的大小,相关系数的含义、单
位、取值范围一致,且计算公式相同,不过一个直接用原始的定量数据,另一个则要用等级数据。 比较分类变量的两个样本或多个样本的频数分布所采用的χ2检验与关联性分析的χ2检验有何异同?
答:分类变量的两样本与多个样本频数分布比较的χ2检验是对两样本或多个样本比较,而关联性分析的χ2检验却是探讨一份样本的两种属性所对应的两个变量间的关系,研究的问题不同、设计不同、检验假设不同、意义不同、结论不同;相同的仅是计算统计量的工具。
分类变量配对的2×2资料在什么情况下用McNemerχ2检验,什么情况下用Pearson χ2检验?
答:分类变量配对设计的2×2频数资料若是作两组频数比较,则用McNemerχ2检验,若是作两变量间关联性分析则用Pearson χ2检验?
第十二章 简单回归分析
直线回归的概念
目的:研究应变量Y对自变量X的数量依存关系。
特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系 样本线回归方程中a和b的含义
??a?bX (12?1)Ya 为回归直线在 Y 轴上的截距
(1)a > 0,表示直线与纵轴的交点在原点的上方; (2)a < 0,则交点在原点的下方; (3)a = 0,则回归直线通过原点。 b为回归系数,即直线的斜率
(1)b>0,直线从左下方走向右上方,Y 随 X 增大而增大; (2)b<0,直线从左上方走向右下方,Y 随 X 增大而减小; (3)b=0,表示直线与 X 轴平行,X 与Y 无直线关系。
b 的统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位 线性回归模型的前提条件是:
线性(linear)独立(independent)正态(normal)等方差(equal variance) 直线回归应用的注意事项
1.根据分析目的选择变量及统计方法
直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。 2.进行回归分析前应绘制散点图
(1) 散点图可考察两变量是否有直线趋势; (2) 可发现异常点(outlier)。
散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。 3.资料的要求
直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;
* 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。 4. 结果解释及正确应用
反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。 (1-α)置信带的意义是:
在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内, 置信度为(1-α) 简述直线回归与直线相关的区别。
(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。
(2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应
变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
简述直线回归与直线相关的区别与联系。
答:两者的联系:①对于既可以作相关又可作回归分析的同一组数据,计算出的b与r正负号一致。②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr。③同一组数据的相关系数和回归系数可以相互换算:r=bY?X×SX/SY。④用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则r2越接近1,说明相关的效果越好。
两者的区别:①资料要求上:相关要求X、Y服从双变量正态分布,这种资料进行回归分析称为Ⅱ型回归;回归要求Y在给定某个X值时服从正态分布,X是可以精确测量和严格控制的变量,称为Ⅰ型回归。②应用上:说明两变 试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?
答:用tb、tr作t检验;用F对b和R2作方差分析;直接查τ界值表。
现有根据10对数据算出的直线回归方程: =2.1+0.8X,只有X和Y的均数、标准差,而原始数据丢失时如何判定回归方程是否成立?
答:例如可以利用r=b×SX/SY,求得相关系数,然后查相关系数界值表对回归方程作假设检验。 请计算直线回归中残差和自变量之间的积差相关系数。 答:可以证明,残差 与自变量X之间的相关系数为0。 证:只需证明二者的离均差积和 因为 的均数为 ,所以 ,故有:
简述直线相关与秩相关的区别与联系。
答:二者的联系:①两者所解决的应用问题相同,都可用来表示两个数值变量之间关系的方向和密切程度。②两个相关系数都没有单位,取值范围都在(-1,1)之间。③计算上,用秩次作积差相关,得到的就是秩相关系数。
二者的区别:①资料要求不同:积差相关要求X、Y服从双变量正态分布,秩相关可以是任意分布。②由于资料要求不同,二者属于参数统计与非参数统计方法,所以符合分布条件时,积差相关的效率高于秩相关。③二者假设检验方法不同。
Ⅰ型回归和Ⅱ型回归的区别与联系?
答:前者要求Y为随机变量,服从正态分布,X可人为取值;后者X,Y均为随机变量,均服从正态分布。 线性回归分析中应该注意哪些问题? 答:(1)作简单线性回归分析要有实际意义,不要把豪无关联的两种现象强加在一起作回归分析。在理论上,任何成对的两组数据都可以获得一个唯一的线性回归方程,并有可能作回归系数的假设检验有统计学意义。(2)在作线性回归分析前,一定要绘制散点图,观察全部数据点的分布趋势,只有存在线性趋势时,才可以进行线性回归分析。(3)线性回归方程的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量取值范围仍是直线,应该避免外延。(4)作线性回归分析有统计学意义不等于有实际意义,考察线性回归方程的实际效果用决定系数R2的大小,而不是线性回归分析的假设检验的概率P值。 简述线性相关与线性回归的区别与联系?
答:联系:①r(相关系数)与b(回归系数)可相互换算;②r与b的假设检验等价;③r与b正负号一致;④回归可解释相关,相关系数的平方r(对称决定系数)是回归平方与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分tr=tb=F。区别:①资料要求上相关X,Y正态分布,回归Y正态分布;②应用上:相关说明相关关系,回归说明依存关系。③意义上:r说明两变量关系程度与方向b表示x增或改变,使Y改变b个单位;㈣计算上:b=Lαy/Lαx, r=Lxy/
LxxLyy;⑤取值范围:-∞<b<+∞,-1≤r≤1;⑥单位:b有单位,r无单位。
随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同?
答:随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上的不同之处,具体如下表所示: 区别点 设计 完全随机设计 采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理 随机区组设计 随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。 变异分解 三种变异:SS总=SS组间+SS组内 四种变异:SS总=SS处理+SS区组+SS误差 随机区组设计与完全随机设计相比,因为利用区组控制了可能的混杂因素,并在进行方差分析时将区组的变异从原组
内变异中分解出来,所以,当区组间有统计学意义时,由于减少了误差,实验效率得以提高。 均数的可信区间与参考值范围有何不同?(书P98,表6-5)
答:均数的可信区间与参考值范围的区别主要体现在含义、计算公式和用途三方面的不同,具体如下表所示: 区别点 含义 均数的可信区间 参考值范围 按预先给定的概率,确定的未知参数的可能范围。“正常人”的解剖、生理、生实际上一次抽样算得的可信区间要么包含了总体化某项指标的波动范围。 均数,要么不包含。但可以说:该可信区间有多大(如当α=0.05时为95%)的可能性包含了总体均数 ①σ未知: ②σ已知: ③σ未知但n>50 估计总体均数 * 也可用 (对应于单尾概率时) ①正态分布: ②偏态分布: 判断观察对象的某项指标正常与否 ** 也可用 (对应于单尾概率时) 计算 公式 用途 率与构成比的区别 概念 强调点 资料获得 特点 区别点 意义 计算公式 与n的关系 用途 标准差 个体差异大小 总体标准差: 样本标准差: n↑ ,则S→σ 与均数结合可制定参考值范围 率 发生的频率或强度 随机发生事件 较难 不一定 标准误 抽样误差大小 样本均数的标准差: 或 n↑,则 →0 与均数结合可计算总体均数的可信区间 构成比 各组成部分所占的比重 各部分的构成 容易 合计为100% 请你谈谈标准差和标准误的异同点。 试述正态分布、标准正态分布及对数正态分布的联系和区别。 答:正态分布、标准正态分布及对数正态分布的联系和区别: 原始值X 分布类型 集中趋势指标 均数与中位数的关系
正态分布 无需转换 对称 μ μ=M 标准正态分布 作u=(X-μ)/σ转换 对称 μ=0 μ=M 对数正态分布 作Y=log X转换 正偏态 G μ>M