2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
《生物统计学》复习资料
2012.06
一、名词解释。
★集团:也称总体或母体,是符合指定条件的所有个体所组成(有限与无限)。 ☆集团参数:由集团的全部个体观测值按一定方法计算出来的、反应集团特征的数值。 ☆个体:构成集团的基本单位;对每个个体的同一特征(性状)进行观测可得到1个观测数据。 ☆样本:按一定方法从集团中抽取出的一部分个体构成一个样本。
☆样本统计量:由样本中的全部个体观测值按一定方法计算出来的、反应样本特征的数值。 ★偶然误差(机误):由非研究因素(环境条件)的随机波动对研究对象的影响而行成的试验指标的随机变化(实际观测值以真值为对称中心随机波动)。
☆系统误差:由非研究因素(环境条件)的趋势性(方向性)变化对研究对象的影响而行成的试验指标的方向性变化(实际观测值表现为普遍比真值大或小)。 ☆准确度:实际观测值与真值间的符合程度。 ☆精确度:实际观测值相互间的符合程度。
☆重复:每个处理在试验结束后能获得2个或更多的观测值。
★局部控制(区组化):将试验空间分范围地控制环境因素,使其对处理小区的影响达到最大程度的一致。
☆随机排列:各处理在小区中的位置由机会(而非主观意愿)决定且每个处理被安排在每个小区的机会要相等。
☆重复区:试验空间内人为根据环境变化情况划分的、各种非研究因素能够保持最大程度一致性的区域。
☆小区:安排试验处理的最小空间区域。
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
☆试验方案(狭义):根据试验目的和要求所拟定进行比较的一组试验处理的总称。
★试验因子:对试验对象在某方面的表现(试验指标)有影响的,试验过程中需要进行考查的条件。
★试验因素:有待比较的一组处理的因子。
★试验处理:预先设计好实施在试验单位上的一种具体措施。 ☆试验水平:在试验中被人为设置的每种状态。
★试验指标:在某一项研究活动中,并不可能对所有的经济性状都进行研究,故而只能确定其中的某一个或某几个性状为需要进行研究和分析的目标性状,其余均为非目标性状,则相应的目标性状即为试验研究中的试验指标。
☆试验效应:试验指标因研究因子水平的不同而表现出的数量变化。
☆主效应:试验指标在单个因子水平间表现出的平均差异称为该因子的主效应。
☆交互效应:不同因子间的相互影响从而导致的试验指标的变化,即复因子试验中去除各因子主效应后的剩余效应则为因子间的交互效应。 ☆试验空间:放置试验对象并实施研究活动的空间。
★适合性测验:根据X2值估计实际数据与预期理论值假设测验的统计方法。 ★统计学第一类错误:统计假设μ=μ0为真,被判为假。 ☆统计学第二类错误:统计假设μ=μ0为假,被判为真。 ★显著水平:统计学中犯第一类型错误的最大概率。 ★t0.05,12:自由度为12,显著水平为5%的相关系数t的值。 ★正交实验:根据正交表来安排的试验。
★局部控制(区组化):将试验空间分范围地控制环境因素,使其对处理小区的影响达到最大程度的一致。
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
☆边缘效应:因试验小区或试验地边缘位置的试验对象由于受外部条件的影响而表现出来的试验指标观测数值异常现象。
☆随机变量:是一个取值具有随机性的变量,是抽象化的存在随机变量的概率分布:指随机变量的取值出现概率的。
★小机率原理:如果某事件发生的概率足够小,则在一次(实践)观察中,有理由相信这一事件将不发生。
★回归截距:a,是x=0时,y的值,即回归直线在y轴上的截距。
★回归系数:b?SPxy??xy-?x?y/n??xy-?x?y/n,是x每增加一个单位数时,y平均
SSx?x2?(?x)2/n?(x-x)2地要增加或减少的单位数。 ★相关系数:r?SP/df?Sx?SySPxy,表示X和Y相关密切程度。
SSx?SSy☆回归分析:以计算回归方程为基础的统计方法。 ☆相关分析:以计算相关系数为基础的统计方法。
☆集团均数的区间估计:对集团均数在一定概率下的取值范围(下限,上限)进行估计。 ☆点估计:对集团均数用其相应的样本均数(是集团均数的无偏估计)进行估计。
n(|a-t|-1/2),近似程度随数据量及数值的增大而提高,故当数据量较少或数值较小★?2c?∑i?12t时可对其作连续性矫正。(连续性矫正的卡平方值)
★相关关系是不同变量 (至少有一个是随机变量)间的关系,指当一个变量的值发生变化时,另一个变量的值与随之而发生变化的趋势。
★MS:均方。即多个总体或处理所提供的组内变异(或误差)的平均值。 ★N(3,22):平均数为3,标准差为2的标准正态分布。
二、填空题。
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
1.科学研究的方法有 定性研究 和 定量研究 。
2.试验设计的目标是避免 系统 误差,减小 随机 误差,以保证试验的 精确度 和 准确度 。
3.试验设计要贯彻 重复 、 局部控制 、 随机排列 等三大原则。
4.作为集团的代表,样本的 样本容量 和 样本自由度 决定了其代表性的大小。 5.反映资料中心位置的统计量有 样本平均数 ,反映数据变异度的统计量常用的有 样本平方和 、 样本方差 、 样本标准差 、 样本变异系数 、 样本极差 、 样本标准误 。 6.平均数的作用是 平均数是一组样本数据的代表值,可以与其他资料进行对比 ;样本容量的作用是 决定样本的大小与代表性(误差)的大小 ;样本自由度的作用是 决定样本的代表性大小,取代样本容量n参与平均变异计算以获得对集团变异性的无偏估计 ;平方和的作用是 反应个体间差异的大小 ;方差的作用是 反应个体间的平均差异 ;标准差的作用是 反应个体间的平均差异的大小 ;变异系数的作用是 反应整齐性的大小 ;极差的作用是 反应变异的幅度 ;标准误的作用是 估计抽样误差(随机误差)的平均大小 。 7.统计分析的核心在于由 样本 的情况推断 总体 的信息。
8.某试验将A因子的4水平控制为副处理(主要因子),B因子的3水平控制为主处理(次要因子),重复2次。该试验的主处理数为 3 ,主区数为 6 ,副处理数为 4 ,副区数为 24 。若FA显著,则A因子水平间多重比较时用 机误b 。(机误a或机误b)
9.某田间试验,A因子有4个水平,B因子有3个水平,采用随机区组设计重复两次。已知误
x差均方为4.82,因子主效应F测验达显著,需作A因子水平间的多重比较(用Duncan测验,
S即新复极差法),此时 = 0.896 。
10.L8(4*24)表示一张具有 具有4个水平1列,2个水平4列的8行 的混合型正交表。如采用该正交表安排试验,该试验的处理数有 8 个。
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
11.本课程学过的随机排列的试验设计方法主要有 随机区组设计 、 完全随机排列 、 拉丁方设计 、 裂区设计 、 条区设计 、 局部实验 等6种。
12.试验资料一定要满足 方差具有同质性 、 变异的可加性 、 变异的独立性 等三条件才能进行方差分析。若试验资料为可数资料,在进行方差分析时,常用的统计代换有 反正弦代换 、 平方根代换 、 对数代换 等三种。
13.方差分析时,进行均数间多重比较的标准常用的有 最小显著差数法 、 复极差法(q法) 、 Duncan氏新复极差法 等三种测验法。多重比较结果表示最常用 标记字母 法表示。
14.计数资料的X2测验应用于 适合性 测验、 独立性 测验和 联合分析 测验。 15.协方差分析是 回归 分析法和 方差 分析法的相结合的一种统计分析法,其主要功用有当(x,y)为因果关系时,可利用y依x的回归系数矫正y变数的处理平均数,提高精确度 和 当(x,y)为相关关系时,可通过估计不同变异来源的总体方差和协方差,作出相应的相关分析 。
16.试验方案设计的过程就是 试验三原则 的贯彻过程。其具体步骤分别是 确定重复次数 、 按局部控制原则进行重复区的小区的划分 、 将各处理在每个重复区中按随机排列的原则安排到试验小区中 。(重复、局部控制、随机排列)
17.试验中保护行设置的作用是 边缘效应区域的试验对象的异常将会影响到试验观测结果的准确性,为解决此问题,可在进行数据观测时,将这部分区域排除在外,不参与数据的测量,以此提高观测结果的准确性,因此区域的存在对数据的准确性具有保护作用。
三、简单题&问答题。
1.请说明随机区组设计过程的各个步骤。
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
答:(1)确定重复次数。根据试验所允许的最大规模确定最高重复次数,根据误差的大小确定最低重复次数。(2)按局部控制原则进行重复区的小区的划分。重复区的划分方向与环境变异方面相垂直,小区方向与环境变异方面相平行。(3)将各处理在每个重复区中按随机排列的原则安排到试验小区中。可通过抽签或随机数字的方式进行。
2.解释用作区间估计的t分布概率公式 的统计含义。 答:统计在95%的可靠度下样本平均数的上限和下限。
3.解释差异显著性测验中所计算出来的t值、χ2值、F处理值的含义。
P(y?t0.05S/n???y?t0.05S/n)?95%t?(y-?)/Sy答:如果随机变量y~N(μ,σ),则其函数 所服从的概率分布称为t分布。t即为标准化离差。如果u1, u2, … un ~ N(μ,σ)(即来自相同集团)则χ2 =Σui2所服从的概率分布为χ2分布。χ2即相互独立的多个正态离差平方值的总和。F处理即为处理间差异平方与误差平方的比值。
4.写出本课程学过的5类型统计分析方法?简述各类统计分析法的作用和适用条件。 答:方差分析、相关分析、协方差分析、统计假设测验、卡平方分析。 5.请论述单因子试验与复因子试验的方差分析在计算过程上的主要区别。
答:(1)单因子试验与复因子试验的方差分析都要计算处理间的自由度,而复因子试验的方差分析还需要计算组间的自由度。(2)在进行平方和的分解时,单因子试验和复因子试验的方差分析都需要分解出处理的平方和和误差的平方和,而复因子试验的方差分析还需要分解出组间的平方和。(3)在进行F测验时,单因子试验和复因子试验的方差分析都需要计算处理间均方对误差均方的比率,而复因子试验的方差分析还需要计算组间均方对误差均方的比率。 6.为什么多个处理平均数进行差异显著性测验,不宜用t测验,而需采用方差分析法?在进行方差分析时,试验资料一定要满足什么条件才能直接进行分析?
答:若多个处理平均数进行差异显著性测验采用t测验,会造成计算量加大,置信度降低,而
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
方差分析法相对而言,计算量小,能够较精确地反应各处理间的差异。在进行方差分析时,试验资料要满足同质性、可加性、独立性才能直接进行分析。 7.解释正态分布概率公式 的含义。 答:有95%的样本x落在 的范围内。 8.说明单因子试验设计的方法有哪几种及其适用条件。
答:单因子试验设计的方法有随机区组设计、完全随机排列和拉丁方设计。(1)随机区组设计。适用条件:当环境条件在1个方向上存在明显的变异时(二维平面空间)。(2)完全随机排列。适用条件:当环境条件在0个方向上存在明显的变异时(二维平面空间)----任何方向上的趋势性变异均不明显。(3)拉丁方设计。适用条件:当环境条件在2个方向上存在明显的变异时(二维平面空间)。
9.说明在试验设计中是如何对误差进行控制的?
答:控制误差之三大原则:(从含义;作用;实施方式三个方面进行掌握)(1)重复:每个处理在试验结束后能获得2个或更多的观测值。给每个处理安排2个或更多的小区,每个小区观测一个数据;只给每个处理安排一个小区,但在观测数据时先在每个小区内设置多个观测点,每个观测点观测一个数据。(2)局部控制:将试验空间分范围地控制环境因素,使其对处理小区的影响达到最大程度的一致。将有差异(方向性的)的整个试验空间划分成若干个相对最为一致的小区域(重复区),再在每个重复区内给每个处理均安排一个小区,从而使各处理能够在各个环境条件最为一致的重复区内进行公平的比较。重复区的划分方向与环境变异方向垂直,重复区内的小区划分方向与环境变异方向平行。(3)随机排列:各处理在小区中的位置由机会(而非主观意愿)决定且每个处理被安排在每个小区的机会要相等。 10.何谓试验设计(狭义)?简述试验设计三原则及其作用。
答:试验设计(狭义)是指根据试验目的和要求所拟定进行比较的一组试验处理的总称。试验
P(x?1.96????x?1.96?)?95%(??1.96?,??1.96?)2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
设计的三原则是重复、局部控制、随机排列。其作用为对误差进行合理控制的前提下,将各处理安排到试验小区中,以分析试验指标的各项效应。 11.写出本课程学过的试验设计方法及各种方法的适合情况。
答:(1)随机区组设计。当环境条件在1个方向上存在明显的变异时(二维平面空间)。(2)完全随机排列。当环境条件在0个方向上存在明显的变异时(二维平面空间)----任何方向上的趋势性变异均不明显。(3)拉丁方设计。当环境条件在2个方向上存在明显的变异时(二维平面空间)。(4)裂区设计。1·当不同因子对小区的面积或分析结果的精确度有不同要求时;2·在原单因子试验基础上追加新的因子或单因子试验的连续多次观测结果。(5)条区设计。不同因子对小区的面积均要求较大时。(6)正交试验设计。当因子数较多、每个因子的水平数也较多从而导致复因子试验的规模过大(处理组合数太多)时。
四、计算器。
1.请计算以下某生物量的测量数据之:平均数;样本自由度;平方和;标准差;变异系数;标准误,并对该生物量作置信度为95%的区间估计。
数据:7,7,8,9,9,9,9,10,10,11(单位:毫克/毫升)
t0.05,8?2.306;t0.05,9?2.206;t0.05,10?2.228..?11?yi7?7?.平均数:y???8.9;样本自由度:Df?n?1?10?1?9;n10222解: 平方和:SS??(yi-y)?(7-8.9)?...?(11-8.9)?14.9;方差:S2?SS/Df?14.9/9?1.656;标准差:S?S2?1.656?1.287; 变异系数:cv?S/y*100%?14.46%;标准误:Sy?S/n?1.287/10?0.407.由P(y?t?/n???y?t?/n)?95%得,
8.9?2.206*1.287/10?8.002;8.9?2.206*1.287/10?9.798,所以,该生物量在置信度为95%时,?9.798且?8.002.
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
2.现对2种不同的种子进行发芽试验得结果如下,试对其进行差异显著性分析。第一批种子为22x0.05,1?3.84;x0.05,2?5.9987:13;第二批种子为82:18.( ) 解: 第一批 种子1 87 种子2 13 总数 100 2(87*18-82*13-200/2)*200Xc2??0.611169*31*100*10022现实得Xc?X0.05,1,故P?0.05,即批次情况与种子发芽情况无关第二批 82 18 100 总数 169 31 200
3.以下试验资料已计算出其SS总=738.95,SS处理=648.55,请完成F测验。 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ 合计Ti A 20 17 13 18 21 89 F0.05,3.12?3.49F0.05,4.12?3.26B 24 22 20 23 26 115 F0.05,5.12?3.11C 15 14 10 15 17 71 D 30 28 27 29 32 146 合计T 89 81 70 85 96 421 解:(1)自由度和平方和的分解C?4212?8862.05; 5*4 SST?738.95SSA?648.55; SSB??T2j/a?C?(892?812?...?962)/4?8862.05?93.7;SSe?SST?SSA?SSB?738.95?638.55?93.7?6.7;
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
(2)方差分析 (3)F测验 变异来源 DF 组间 处理间 误差 总变异
4.对粘虫调查得以下结果,请计算其相关系数及回归方程。 始日X 峰日Y X*Y 650 1375 1350 1081 1326 29 22720 6531 50 55 50 47 51 29 48 330 47.14 15980 1 13 2 25 3 27 4 23 5 26 6 1 7 15 总和 130 平均数 平方总和 18.57 2954 4 3 12 19 SS 93.7 648.55 6.7 738.95 MF 23.425 216.18 0.558 F 41.98 387.42 F0.05 3.26 3.49 F组间?41.98?3.26F处理间?387.42?3.49推断:组间、处理间均有显著差异SSx??x?(?x)/n?2954?130/7?539.7143;SSy??y2?(?y)2/n?15980?3302/7?422.8571;解:
SP??xy??x?y/n?6531?(130*330)/7?402.4286;SPxy?(y?y)(x?x)?402.4286?0.8424;r??
477.7259SSx*SSySSx*SSyb?SP/SSx?402.4286/539.7143?0.7456;
a?y?bx?47.14?0.7456*18.57?33.2942故y??0.7456x?33.2942,即y??0.75x?33.29
22012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
5.经对一果园进行调查,得其单株产量记录分别如下:23,23,27,21,20,28,40,32,20,22,17,15,25,28,22,26,30,25,17,20.试计算其变异系数,并对该园的平均
t0.05(df?18)?2.101;t0.05(df?19)?2.093;t0.01(df?18)?2.878;t0.01(df?19)?2.861;单株产量作95%的区间估计。 已知:
?解: 平均数:y?
yi?24.05;样本自由度:Df?n?1?19;n2平方和:SS??(yi-y)?648.955;方差:S2?SS/Df?648.955/19?34.156;标准差:S?S2?34.156?5.844;变异系数:cv?S/y*100%?24.30%.由P(y?t0.05?/n???y?t0.05?/n)?95%得,24.05?2.093*5.844/20?21.314;24.05?2.093*5.844/20?26.785,所以,该园的平均单株产量在置信度为95%时,?21.314且?26.785.6.未使用药物进行防治时观测到感病植株数为145,正常植株数为13,使用某农药进行防治后观测得感病植株数为52,正常植株数为404,试分析该农药是否具有防治效果。 已查:
解:根据题意,其v=(2-1)(2-1)=1,故计算X2值时,需要作连续性矫正。 处理项目 未用药物 药物防治 总数 感病植株 145(50.69) 52(146.31) 197 正常植株 13(107.31) 404(309.69) 417 总数 158 456 614 2X02.05,1?3.841;X0;.01,1?6.635首先建立统计假设,Ho:用药物处理与否与种子感病多少无关。HA:用药物处理与否与种子
50.692(404?309.69?0.5)2Xc2?(145?50.69?0.5)2?(13?107.31?0.5)2107.31?(52?146.31?0.5)2146.31??344.15309.692(145*404-52*13-614/2)*6142012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
感病多少有关。因此,
7.有一牧草中耕次数A(2水平)和施肥量B(3水平)试验,采用随机区组设计重复4次,试验资料已算出:SS总=1036,SS区组=291.33,SSA=240.67,SSB=3.25,SS处理组合=583。试完成该试验的方差分析表,计算各因子均方及作F值。 解: 区组 处理间 A B A*B 误差 总变异 DF 3 5 1 2 2 18 23 SS 291.33 583 240.67 3.25 339.08 453 1036 MS 97.11 116.6 240.67 1.625 169.54 25.167 F 3.86 4.63 9.56 <1 6.74
2012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
8.采用碘量法测定还原糖,用0.05mol/L浓度硫代硫酸钠滴定标准葡萄糖溶液,记录耗用硫代硫酸钠体积数(mL),得到如下数据: 硫代硫酸钠x(mL) 0.9 葡萄糖y(mg/mL) 2 2.4 4 3.5 6 4.7 8 6 10 7.4 12 9.2 14 试求y对x的线性回归方程及相关系数。
x?4.87;y?8;?x?34.1;?y?56;?x2?216.31;?y2?560;?xy?347.6SSx??x2?(?x)2/n?216.31?34.12/7?50.1943;解: y??y2?(?y)2/n?560?562/7?112;SSSP??xy??x?y/n?347.6?(34*56)/7?75.6;SPxy ?(y?y)(x?x)?74.8?0.9976;r??74.9784SSx*SSySSx*SSy b?SP/SSx?75.6/50.1943?1.5061;a?y?bx?8?1.5061*4.87?0.6653
9.橡胶苗圃肥料试验,A,B,C,D,E五中肥料处理,小区面积为一个苗床,采用拉丁方设计,试验指标为平均茎围(略),用SAS软件进行方差分析,其中五中肥料间的平均茎围多重比较结果(q法)如下表,请写出统计结论。 肥料 C A 平均茎围 3.02 2.50 0.05 a b 故y??1.5061x?0.6653,即y??1.5x?0.672012年7月 生物统计学 农学院 2010级农业资源与环境 林罗添骥
D E B 2.22 2.06 1.50 bc c d 解:(1)肥料C与肥料A、D、E、B处理间差异显著性达到a=0.05水平。
(2)肥料A与肥料D无显著差异,与肥料E、B处理间差异显著性达到a=0.05水平。 (3)肥料D与肥料E无显著差异,与肥料B处理间差异显著性达到a=0.05水平。 (4)肥料E与肥料B处理间差异显著性达到a=0.05水平。