85- 90- 95- 100- 105- 110- 115— 120- 125- 总 和 87.5 92.5 97.5 102.5 107.5 112.5 117.5 122.5 127.5 8 12 21 24 14 9 4 3 2 100 11 23 44 68 82 91 95 98 100 解:根据百分位数的计算公式:
Pp?Lp?(pN?n1)ifp 计算得
P90?110?(0.90?100?82)?5?114.449
5P?85?(0.10?100?3)??89.38108 所以,
P.44?89.50?25.06 90?P10?114
第三节 相对差异量
所谓差异系数是指标准差与其算术平均数的百分比。
CV?σX?100%X
CV 表示差异系数
?X表示标准差 X表示算术平均数
小结:差异量和集中量的比较
联系:都是一组数据的特征量, 区别:从不同角度来反映数据的特征。
1.集中量如果在数轴上表示,它是一个点,而差异量则可表示为一段距离。
2.这段距离越宽,说明数据的离散程度越大,数据的集中量代表性越差;反之,数据则比较整齐,分布范围比较窄,数据的集中量代表性越好。
第五章 概率及概率分布
后验概率
以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A概率的估计值,这样寻得的概率称为后验概率。
P(A)?mn
后验概率即为频率的稳定性。
先验概率。又叫古典概率,用数学的分析方法进行计算得到的概率。需满足两个条件:试验的所有结果是有限的;每一种可能结果出现的可能性相等。 概率的加法和乘法 1、概率的加法
在一次试验中不可能同时出现的事件称为互不相容的事件。 两个互不相容事件和的概率,等于这两个事件概率之和。
P(A?B)?P(A)?P(B)
2.概率的乘法
两个独立事件的概率等于这两个事件概率的积,表示两个事件同时出现的概率。
P(A?B)?P(A)?P(B)
概率分布定义:对随机变量各个取值的概率用图表或函数式进行的描述。 常用分类有以下三种
(1)按照随机变量的性质来分:离散分布和连续分布。 (2)按照概率分布的制作方法来分:经验分布和理论分布。 (3)按照考查的变量来分:基本随机变量分布和抽样分布。
第二节 二项分布
一、凡是满足以下条件的试验称为二项试验:
(1)一次试验只有两种可能结果,即成功和失败。 (2)各次试验相互独立,可反复进行。 (3)各次试验中成功的概率相等。 二、二项分布图的特点:
(1)当p=q时,不管n有多大,二项分布呈对称形。当n很大时,二项分布接近于正态分布。当n趋近于无限大时,正态分布是二项分布的极限。
(2)当p不等于q时,且n相当小时,图形呈偏态。但当p小于q且np大于等于5,或者p大于q且nq大于等于5时,二项分布即将出现向正态分布接近的趋势。 三、二项分布的特征
当二项分布接近正态分布时,在n次二项试验中成功事件出现的次数的 平均数为:
??np 标准差为:??npq
第三节 正态分布
正态分布又叫做常态分布,是一种连续型随机变量的概率分布。正态分布形态上很像古代的大钟,中间大两头小,左右最称,所以有人把它叫钟形分布。 (二)正态分布的特点 1.曲线的最高点在
Z?0(X?Md?M0)
2.曲线以Z=0处为中心,双侧对称。
3.曲线从最高点向左右缓慢下降,并无限延伸,但永远不与基线相交。 4.标准正态分布上的平均数为0,标准差为1。
5.曲线从最高点向左右延伸时,在正负1个标准差之内,既向下又向内弯。 四、正态分布的应用
1.用Z的公式将原始分数转换成标准分数
Z?条件是原始分数的分布是正态的。
X?X?X
例如:已知某班期末考试中语文的平均分为76,标准差为10,数学的平均分为83,标准差为15。某学生在这次期末考试的语文成绩为79,数学成绩为87,问该生这两科成绩哪一个更好些?
解:根据Z分数的计算公式,得
Z语文?79?7687?83?0.30Z数学??0.271015
答:该考生的语文成绩更好一些。
(2)使各科成绩的合成意义更明确。
例如:两个学生参加两门考试:语文和数学,他们的总分相同,都是175分。学生甲语文考了
95,数学考了80;乙语文考了80,数学考了95。假定语文的平均分为70分,数学的平均分为85。问哪个学生考的更好一些? 2.确定录用分数线
例如:在某年的高考中某省的平均分为420,标准差为100,分数呈正态分布,某考生得了456分。设当年的该省的录取率为40%,问该生的成绩是否上线?
Z?解:根据Z分数的计算公式,得
456?420?0.36100
然后查附表,找到对应的Z=0.25
当P=0.40(高端)时,0.5-0.40=0.10
因为0.36>0.25, 所以该考生上线了。
第六章 抽样分布及总体平均数的推断
第一节 抽样分布
一、抽样分布的概念
1.总体分布:总体内所有个体数值的频数分布。 2.样本分布:样本内个体数值的频数分布。 3.抽样分布:某一种统计量的概率分布 二、平均数抽样分布的几个定理
1.从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。
E(X)??
2.容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的方根。
?X??n
3.从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。
4.虽然总体不呈正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。
第二节 总体平均数的参数估计
已知某年某地区高考数学成绩的方差为100,从该地区随机抽得20名考生的数学成绩为:65、68、38、56、72、75、47、58、70、63、67、64、60、69、61、66、55、76、68、62,试求该地区这一年高考数学平均分95%的置信区间。 解:经计算,得
所以,总体平均数95%置信区间为:
第八章 方差分析
方差分析的基本功能就在于对多组平均数差异的显著性进行检验
第二节 完全随机设计的方差分析
例如,为了提高初三学生的物理成绩,物理教师设计了A、B、C、D四种计算机辅助教学软件,为
了检查四种软件的教学效果,从某校初三学生中随机抽取了24名学生,分成四组,然后随机指派一组学生去使用一种教学软件。学期结束时进行统一考试,成绩如下。问四种教学软件产生的助学效果有无不同?
序号123456A817572796862B717364696667(?X)2n=12638.51
C878374797672D687364697770
??X=1739 ??X2=126925 ?解:第一步:提出假设
H0 ?1??2??3??4
H1 至少有两个总体平均数不相等
第二步:选择并计算检验统计量
将上表中的数据代入组间和组内平方和的公式,计算得,
22(?X)(??X)17392SSb????126358.51??353.47nnK6?4 2(?X)SSw???X???126925?126358.51?566.49n
2然后,计算组间自由度和组内自由度
dfb?K?1?4?1?3
dfw?n1?n2????nK?K?6?4?4?20
?F?MSbSSb/dfb353.47/3???4.16MSwSSw/dfw566.49/20
第三步:统计决断
根据分子和分母自由度查F值表,得
F(3,20)0.05?3.10 F(3,20)0.01?4.94
因为实际计算出的F=4.16*>3.10,P<0.05,由此可以得出结论,这四种计算机助学软件所产生的效
果有显著性的差异。
第十章 卡方检验
卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验
一、按一定比率决定理论频数的卡方检验
例1:根据某校长的经验:高中生升入大学的男女比例为2:1, 今年的升学情况是男生118人,女生41人,问今年升学的男女生比例是否符合该校长的经验? 解:第一步:提出假设
Ho:今年升学的男女生人数比例符合该校长的经验 Hi:今年升学的男女生人数比例不符合该校长的经验 第二步:计算χ2值
因为根据零假设,则男女生的理论频数为:
ft1?(118?41)?221?106ft2?(118?41)??5333
22(118?106)(41?53)????4.0810653
第三步:统计决断
22??3.84?(1)0.05(0.01?6.63 根据df=2-1=1查χ2值表(附表7),得 1)因为χ2=4.08*>3.84,p<0.05,按照统计决断的一般规则,则应拒绝零假设,因此其结论为:今年升
学的男女生人数比例不符合该校长的经验。
第十章 相关分析
相关系数
用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。通常用r表示。 相关系数的数值范围(-1至1)。
相关系数的绝对值接近于1就越密切。 r值是一个比值,不能表示成百分比。 积差相关公式的使用条件:
1.两个变量都是由测量获得的连续性数据。
2.两个变量的总体都呈正态分布或接近于正态分布。 3.必须是成对的数据,而且每对数据间是相互独立的。 4.两个变量之间呈线性关系 5.两个变量不是共变关系
6.样本容量大于30,最好大于50。