ε = Y|9 ?μ9 ~ N(0,? ) 记
β = μ9 ?μ8,因此对于 8 岁的男孩身高 2 Y = μ8 +ε ,ε ~ N(0,? ),对于 9 岁的男
孩身高2
Y = μ9 +ε = μ8 +β +ε ,ε ~ N(0,? ),记变量 x=1 表示 9 岁,x=0 表示 8
岁,β0 = μ8 。因此Y = β0 +β1x +ε ,ε ~ N(0,? 2 ) ,相应的总体回归方程为
μY|x = β0 +β1x,其中回归系数β = μ9 ?μ8。
2. 随机抽取12 名成年人,测得他们的身高(cm)和体重(kg)如表10-9。 表10-9 12 名成人的身高(cm)和体重(kg) 受 试 者 编 号 指标
1 2 3 4 5 6 7 8 9 10 11 12
体重 56.5 69.1 64.5 75.0 65.0 76.0 47.5 71.5 68.0 49.5 57.5 82.0
身高 156.5 172.0 167.5 176.0 170.0 167.5 145.0 158.5 161.0 150.0 159.0 180.5 (1) 分析这两项指标是否相关以及相关程度的大小。
答:(1)r=0.8720,P=0.0002,说明身高与体重这两项指标存在相关关系。 (2) 求身高和体重之间的直线回归方程并对回归方程进行解释。
答:体重(X)与身高(Y)之间的直线回归方程为:Y=107.61055+ 0.85945X。
对回归系数的假设检验结果tb=5.64,P<0.01,说明直线回归方程是有统计学意义的。 即成年人体重每增加1kg,估计身高平均增加0.85945cm。
(3) 假如知道了一个人的身高是173.8cm,如何预测它的体重? 答:首先建立Y 与X 的回归方程:X= -79.65729+ 0.88515Y, 再将Y=173.8 代入该回归方程,得X=74.1818。
3 某医师研究污染源距离和尘肺浓度的关系,数据如下 表10-10 污染源距离和尘肺浓度
离污染源距离(m) 200 300 400 500 600 700 800 900 1000 尘肺浓度(0.01mg/m3) 4.5 3.7 3.2 2.4 2.0 1.5 1.2 0.8 0.7 请作统计分析。
答:建立污染源距离X 与尘肺浓度Y 的回归方程式:Y= 5.10222+(-0.00480)X。 对回归系数的假设检验 = ?14.03 b t ,P<0.01。说明:离污染源距离增加1m,尘肺浓度减 少0.00480(0.01mg/m3)单位。
4. 在线性回归分析中,如果决定系数R2 = 0.01,请问:回归分析是否有意义?请说明理由。 答:R2 = 0.01时,回归分析作预测没有意义,因为R2 =0.01反应了Y 的总变异中回归关系 所能解释的部分只占1%,但仍有可能两个变量存在线性回归关系。
5. 如果两个变量的资料做Spearman相关分析,得到相关有统计学意义(P<0.05),你能否认为 这种相关是线性相关?还是非线性相关?请解释这种相关意义的背景特点是什么? 答:可以认为这种相关是线性相关。Spearman 等级相关系数的计算公式类似与pearson 相关系数,不过在此应用的是数据的秩次,而不是原始数据本身。
6. 在线性回归中,如果所有的样本点均在一条斜率不为0的直线上,请问:回归系数的标准 误Sb有什么特点(提示:由tr = tb,解出Sb与相关系数r)? 答:
2
2 1
r
t r n r = ? ? ,
b b
t b S =
,
由tr = tb 得,
1 2 2 b S b r r n ? = ?
,由此可以发现:当
r →0并且b ≠ 0时,Sb →∞;| r |→1时,Sb →0,说明:当b ≠ 0时,相关系数的
绝对
值越大,Y 与X 伴随变化的离散程度就越小。
第十一章
一、是非题
1、两独立样本四格表资料的χ 2检验要求n ≥ 40且理论数T ≥ 5。 答:对
2、3 个样本率比较的Pearson 2
χ p检验中, 0 H : 1 2 3 π =π =π , 1 H : 1 2 3 π ,π ,π 互不相同 。
答:对
3、在样本量很大时,两独立样本四格表资料符合Pearson 2
χ p检验要求,但仍可以用 Fisher
检验,并且从检验的效果上考虑,可以认为Fisher 检验优于Pearson 2
χ p检验。
答:错。因为Fisher 检验假定行合计数和列合计数是固定的,这与实际抽样的情况不一致, 所以也是一种近似。当样本量较大时,Pearson 2
χ p检验可以非常适合四格表资料统计分析,
所以这时Fisher 检验反而较差。
4、配对设计的四格表资料也可以用Pearson 2
χ p检验,只是检验效能较低。
答:错,Pearson 2
χ p检验只能检验行变量与列变量之间的关联性,不能检验配对四格表中
的两个率是否相等。
5、χ 2分布是一种连续型随机变量的概率分布,因此 Pearson 2
χ p检验也可用于均数的比较。
答:错,均数比较往往还应考虑消除标准差的影响,如t 检验,而Pearson 2
χ p检验无法完
成此类检验。
6. 对于某个统计方法检验一类资料,当0 H 为真时,拒绝0 H 的概率≤α;当0 H 非真时,检
验效能很低,则称该资料统计分析方法的选择是错误的。( )
答:错。不能认为该资料统计分析方法的选择是错误的,只是所选择的统计方法不够优。 二.选择题
1.多个样本率比较的Pearson 2
χ p检验,若 P<α,说明: D 。
A.各样本率均不相等 B.各总体率均不相等 C.各样本率不全相等 D.各总体率不全相等
2.四格表中,如果有一个实际数为0 ,___D______。 A.根本不能检验 B.不能作
χ 2 检验
C.能够作
χ 2 检验 D.根据实际数尚不能决定是否可以作
χ 2 检验
3.对于总合计数n 为51 的5 个样本率比较的Pearson 2
χ p检验,其自由度为 B 。
A.50 B.4 C.1 D.47
4.欲比较丙氨酸氨基转移酶两种水平对HBeAg 阴转的影响,资料见表11-21,应进行
C 。
A. 两独立样本四格表资料χ 2检验 B.配对四格表资料χ 2检验
C. 四格表资料Fisher 精确概率检验 D.t 检验 表11-21 丙氨酶氨基转移酶水平对疗效的影响 丙氨酸氨基转移 酶
. HBeAg + - ≤3ULN >3ULN 16 4 4 8
5.为考察食物频数问卷的可重复性,某研究者采用同一问卷对每一个人在不同时间分别进 行2 次调查,共调查了100 人。其中,胆固醇摄入量的两次调查结果见表11-22。欲分析两 次调查胆固醇摄入量的关联性,宜采用 B 。 表11-22 食物频数问卷中胆固醇摄入量调查结果 第2 次调查 第1 次调查 高 正常 高 32 9 正常 13 46 A. b c
b c + ? =
2
χ 2 ( ) B. b c b c + ? ? =
2
χ 2 (| | 1) C. Σ ? = T