《统计学》练习题
一、选择题
1、根据样本计算的用于描述总体特征的度量工具(如均值)被称为( D )。 A、参数 B、总体 C、样本 D、统计量 2、下列属于分类变量的是( D )。
A、年龄 B、工资 C、产量 D、性别
3、为了估计某城市中拥有私家车的家庭比例,随机抽取500个家庭,得到拥有私家车的家庭比例为30%,这里的30%是( B )。
A、参数值 B、统计量的值 C、样本量 D、统计量 4、抽样调查不可避免的误差是( B )。
A、系统性误差 B、偶然性误差 C、观察性误差 D、登记性误差 5、下列关于抽样误差的说法,正确的是( B )。
A、抽样误差是针对某个具体样本的检测结果与总体结果的差异而言 B、样本容量N越大,抽样误差越小 C、总体的变异度越大,抽样误差越小 D、抽样误差可控制,也可避免
6、不适用于顺序尺度的统计量是( D )。
A、频率 B、众数 C、中位数 D、均值 7、描述定性数据的两种最常用的图示法是( A )。 A、条形图和饼图 B、散点图和饼图 C、散点图和条形图 D、条形图和茎叶图 8、下列图形中,适合描述顺序数据的是( D )。
A、直方图 B、茎叶图 C、箱线图 D、环形图
9、对连续变量或变量值较多的离散变量分组是,通常采用的分组方法是( B )。 A、单项式分组 B、组距式分组 C、等距分组 D、异距分组 10、为了描述身高与体重的依存关系,适合采用的图形是( B )。
A、直方图 B、散点图 C、箱线图 D、雷达图 11、在对几组数据的离散程度进行比较时使用的统计量通常是( D )。
A、异众比率 B、平均差 C、标准差 D、 离散系数
12、当观察数据偏斜程度较大时,应该选用( D )测度数据的集中趋势。
A、均值 B、标准差 C、变异系数 D、中位数
13、从一个均值=20,标准差=1.2的总体中随机抽取n=36的样本。假定该总体并不是很偏,则样本均值小于19.8的近似概率为( B )。
A、0.1268 B、0.1587 C、0.2735 D、0.6324
14、从一个均值为60,标准差为8的总体里随机抽查容量n=100的样本,则样本均值和抽样分布的标准误差分别为( B )。
A、60,8 B、60 ,0.8 C、0.6,8 D、0.6,0.08 15、对于非正态总体,在大样本条件下,估计总体均值使用的分布是( A )。 A、正态分布 B、t分布 C、?2 分布 D、F分布 16、一个估计量的有效性是( D )。
A、该估计量的数学期望等于被估计的总体参数 C、该估计量的方差比其他估计量的大 B、该估计量一个具体数值等于被估计的总体参数 D、该估计量的方差比其他估计量的小 17、为调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排序后,每隔50名学生抽取一名学生进行调查,这种调查方法是( C )。
A、简单随机抽样 B、整群抽样 C、系统抽样 D、分层抽样 18、在下列叙述中,错误的是( C )。
A、样本均值的抽样分布是从总体中抽取特定容量样本的所有样本均值的分布 B、样本统计量是对样本的一种数量描述
C、参数是对总体的一种数量描述,它的值总是已知的 D、样本均值的期望值等于总体均值
19、以样本均值为估计量对总体均值进行区间估计,且总体方差已知,则下列说法正确的是( A )。 A、95%的置信区间比90%的置信区间宽 B、样本容量较小的置信区间较小 C、相同置信水平下,样本容量大的置信区间大 D、样本均值越小,区间越大
20、抽取一个容量为100的随机样本,其均值x=81,标准差s=12,总体均值?的95%的置信区间为( B )。 A、81
??1.97 B、81?2.35 C、81?3.10 D、81?3.52
21、根据某校学生周上网时间的一个样本,用99%的置信水平构造的该校学生周上网时间的置信区间为5.25~10.25小时,则全校学生的周上网时间( D )。
A、肯定在这一区间内 B、有99%的可能性在这一区间内 C、有1%的可能性在这一区间内 D、可能在这一区间内,也可能不在这一区间内
22、某地区的写字楼月租金的标准差为80元,要估计总体均值的95%的置信区间,希望的允许误差为25元,则应抽取的样本容量是( B )。
A、100 B、110 C、120 D、130 23、研究者想收集证据予以支持的假设通常称为( B )。
A、原假设 B、备择假设 C、合理假设 D、正常假设
24、消费者协会针对消费者对某种品牌的A玩具铅含量超标的投诉的回应是没有证据表明该玩具铅超标,则在该假设检验中消费者协会提出的备择假设内容为( A )。
A、该品牌的所有A玩具铅含量超标 B、该品牌的所有A玩具铅含量不超标 C、被抽检的A玩具铅含量不超标 D、无法确定 25、在假设检验中,P值越小,则( B )。
A、拒绝原假设的可能性越小 B、拒绝原假设的可能性越大 C、拒绝备择假设的可能性越大 D、不拒绝备择假设的可能性越小 26、在一次假设检验中。当显著性水平??0.01原假设被拒绝时,则用??0.05时( A )。
A、一定会被拒绝 B、一定不会被拒绝 C、需要重新检验 D、有可能拒绝原假设 27、设ZC为检验统计量的计算值,检验假设为
H:?≤?0,Ho:?>?0,当ZoC=1.645时,计算
出的P值为( A )。
A、0.05 B、0.01 C、0.025 D、0.1 28、在单因素方差分析中,若SST=20,SSE=10,K=4,N=20,则统计量F值为( C )。 A、2 B、2.375 C、5.33 D、6.33 29、在单因素方差分析中,F统计量分子与分母自由度分别为( C )。
A、k-1, n B、k-1, n-1 C、k-1, n--k D、n-k, k-1
30、在方差分析中,进行多重比较的前提是( A )。
A、拒绝原假设 B、不拒绝原假设 C、可以拒绝原假设,也可以不拒绝原假设 D、各样本均值相等 31、在回归模型
yi????xi??i 中,? 反映的是( B )。
A、由于x的变化引起的y的线性变化部分 B、由于x的变化引起的y平均的变化部分 C、由于y的变化引起的x的线性变化部分 D、由于y的变化引起的x的线性变化部分 32、在一元回归中,作了t检验后再作F检验( B )。
A、无意义 B、与t检验的结论相同 C、与t检验的结论不同 D、与可决系数的结论不同
33、利用估计回归方程进行区间估计时,关于置信区间与预测区间(置信度,样本量n,自变量值相同),下列说法正确的是( B )。
A、置信区间比预测区间宽 B、预测区间比置信区间宽 C、两者一样宽 D、不一定 34、对一元线性回归模型,以 A、 C、
se表示估计标准误差,r表示样本相关系数,则( D )。
sse=0时,r=1 B、=0时,r=1 D、
sse=0时,r=-1 =0时,r=1或-1
ee35、对多个总体的方差进行检验时,进行方差分析所构造的统计量F是( D )。
A、SSASSE B、 SSAMSE C、MSASSE D、MSAMSE
36、由最小二乘法拟合回归方程的数学依据是,满足因变量( D )。
A、平均值与其估计值的离差平方之和最小 B、实际值与其平均值的离差平方之和最小 C、实际值与其估计值的离差之和为0 D、实际值与其估计值的离差平方之和最小 37、在应用过程中发现,若对回归模型增加一个解释变量,多重可决系数
。
R一般会( B )
2 A、减少 B、增加 C、不变 D、不能确定 38、在多元回归分析中,多重共线性是指模型中( A )。
A、两个或两个以上的自变量彼此相关 B、两个或两个以上的自变量彼此无关 C、因变量与一个自变量相关 D、因变量与两个或两个以上的自变量相关 39、根据可决系数与F统计量的变化关系可知,当
R2。 ?1,有( D )
A、F=1 B、F=-1 C、F=0 D、F=?
40、在n=45,的一组样本估计的线性回归模型中,包括4个解释变量,若计算的多重相关系数为0.8232,则调整后的多重相关系数为( B )。
A、0.8011 B、0.8055 C、0.8060 D、0.8235
二、问答题
1、 怎样理解描述统计学和推断统计学在探索数量规律性方面的不同之处?
描述统计学主要包括利用获得的数据,绘制统计图,并计算一些数字特征值;
推断统计学主要包括利用获得的样本数据,进行区间统计、假设检验、回归分析、方差分析、时间序列分析等;
总而言之,描述统计学只是了解数据的现状,而推断统计学则要基于现有数据进行预测。 2、 数据的计量尺度分为哪几种?不同计量尺度各有什么特点?
定类尺度:是测量尺度中层次最低的计量尺度,按照某种属性把事物进行分类,可以用定类尺度来度量性别、品牌类型等对象;
定序尺度:具有定类尺度的一切特征,同时还能反映出类别之间的等级,即不仅能把事物分成不同的类别,而且不同类别之间还能进行排序;
定距尺度:在定序尺度的基础上,对事物类别或者次序之间间距的测度,没有绝对零点,可以进行加减运算。
定比尺度:也称比率尺度,是最高层次的度量尺度,有绝对零点,除了可以分类、比较大小及加减运算外,还可以进行乘除运算,计量测度值之间的比值。
3、 试描述数据集中趋势的测度指标并简要分析指标特征?(至少五个)
算术平均数:分为简单算术平均数和加权算术平均数,前者根据原始数据直接计算平均值,后者所依据的数据是经过一定整理的,即是根据一定规则分组的;
几何平均数:是n个变量值连乘积的n次方根,常用G表示,分为简单几何平均数和加权几何平均数; 调和平均数:根据变量值的倒是计算,也叫倒数平均数,是均值的一种重要的表现形式,用字母Hm表示,分为简单调和平均数和加权调和平均数;
中位数:度量数据集中趋势额另一重要测度,是一组数据按数值大小从小到大排序后,处于中点位置的变量,通常用Me表示,是一个位置代表值,不受极端变量值影响;
众数:是一组数据中出现次数最多的变量的值,不受极端值的影响,同时也可用于数值型数据,不能用于分类数据数值的确定。
4、 怎样理解算术均值在统计学的重要地位?
算数均值在统计学中具有重要地位,它是进行统计分析和统计推断的基础,首先,从统计思想上看,均是一组数据的重心所在,是数据误差相互抵消后的必然结果,其次,均值是有一些重要的数学性质,这些数学性质在实际中有着广泛的应用,许多统计分析都来源于这些性质,同时也体现了均值的统计思想。 5、 茎叶图与直方图相比有什么优点?它们的应用场合是什么?
直方图作为传统数据整理方法,其局限性表现为整理后就损失了原始数据的信息;
而茎叶图是探索性数据分析统计,即直接描述和分析未分组的原始数据,直观地描述了原始数据的分布特点,并能根据数据的特点,选择适当的分析工具探索数据的内在数量规律,有助于用户思考对数据进一步分析的方案,既保留了数据的原始信息,又为准确计算均值等提供了方便和可能,通过茎叶图可以看出数据的分布形状以及数据的离散状况;
直方图通常用于大批量数据,而茎叶图通常适用于小批量数据。
6、 一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支出方式是用信用卡。请回答一下问题: (1)这一研究的总体是什么?
(2)月收入是哪一类计量尺度的变量? (3)消费支出方式是哪一类计量尺度的变量? (4)这一研究涉及截面数据还是时间序列数据?
(1)所有的IT从业者;(2)定比尺度;(3)定类尺度;(4)截面数据
7、 简述中心极限定理 设从均值为?,方差为
??的任意一个总体中抽取样本容量为n的随机样本,则当n充分大时,样本
?/n的正态分布
H:?≥?0,Ho:?<?0;
o均值x的抽样分布近似服从均值为?,方差为
8、 写出大样本条件下总体比率左侧检验的基本步骤。
(1) 根据问题要求提出原假设和备择假设,
(2)确定适当的检验统计量及相应的抽样分布——(正态分布)N(0,1); (3)选取显著水平?,确定原假设(4)计算统计量的值;
(5)作出决策,若P≤?,则拒绝
HHo的接受域为
z?值得右侧,拒绝域为z?的左侧;
Hoo,若P≥?,则接受
9、 简述样本容量与置信水平、总体方差、允许误差间的关系?
(1)样本容量与置信水平成正比,即当样本容量越大时,置信水平越高; (2)样本容量与总体方差成反比,即当样本容量越大时,总体方差越小; (3)样本容量与允许误差成反比,即当样本容量越大时,允许误差越小。 10、 评价优良估计量的主要标准有哪些?并对每一标准作出说明。
无偏性:不是要求估计量与总体参数不得有偏差,而是指如果对同一个总体反复抽样,则要求各个样本所得出所谓的估计量(统计量)的平均值等于总体参数;
有效性:估计量与总体之间存在的方差越小,估计量对总体的估计也就越准确,估计量越有效; 一致性:当样本量逐渐增加时,样本的估计量能够逐渐逼近总体参数。 11、 在研究方法上,参数估计与假设检验有什么相同点和不同点? 相同点:在研究方法上,它们都利用样本对总体进行某种推断;
不同点:推断角度不同,参数估计讨论的是用样本统计量估计总体参数的方法,总体参数?在估计前是未知的,而在假设检验中,则是先对?的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
12、 什么是方差分析?它的基本思想和原理是什么?简述方差分析的基本步骤?
方差分析就是针对一定因素分析各总体的各个因素水平是否有差异,分为单因素方差分析和双因素方差分析,单因素方差分析是针对一个因素进行的,而双因素方差分析则是针对两个因素进行的。 基本思想:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
(2) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSb,组间自由度dfb。
步骤:
(1)建立原假设和备择假设; (2)选择显著性水平; (3)确定决策点; (4)计算并决策。
13、 写出一元线性回归分析中回归方程线性关系显著性检验的基本步骤。 (1)提出假设:H0:?i?0 H1:?i?0
(Ho即自变量与因变量的线性关系不显著,
Ho即两者关系显著);
(2)计算检验统计量F F=SSR/1 SSE/(n-2) F(1,n-2);
(3)确定显著性水平α,并根据分子自由度1和分母自由度(n-2)找出临界值F; (4)作出决策:若F>F ,则拒绝
Ho;若F≤F ,则接受
Ho
14、 解释总误差平方和SST、水平项平方和SSA、误差项平方和SSE的含义及三者的关系。
SST是每个观察值的整体均值之间的平方差之和;
SSA每个水平的平均观察值与总体均值之间平方差之和,反映各总体的样本均值之间的差异程度; SSE是组内平方和,是反映每个样本各观察值的离散程度; SST=SSA+SSE
15、 解释总平方和SST、回归平方和SSR、残差平方和SSE的含义及三者间的关系?
总平方和SST是观测值与其平均值的偏差之和,反映因变量的n个观察值与其均值的总离差; 回归平方和SSR反映自变量x的变化对因变量与取值变化的影响,值越大,占得比重就越大; 残差平方和SSE反映除x以外的其他因素,对y取值的影响,也称为不可解释的平方和; SST=SSR+SSE
16、 简述一元线性回归模型
Yi????Xi?? 的基本假定?
模型中,y是Xi的线性部分加上误差项而得到的,线性部分a+BXi反映了由于Xi的变化而引起的y的变化,误差项
是随机变量是不能有Xi和y之间的线性关系所解释的变异性,它反映了除Xi和y之间
的线性关系之外的随机因素对y的影响,误差项假设是一个服从正态分布的随机变量,且相互独立。
三、计算题
1、甲、乙两个班参加同一学科考试,甲班的平均考试成绩为86分,标准差为12分。乙班考试成绩的分布如下: 考试成绩(分) 60以下 60—70 70—80 80—90 90—100 合计 要求:(1)计算乙班考试成绩的均值及标准差; (2)比较甲乙两个班考试成绩的离散程度大?
2、某地区家庭按人均收入水平分组资料如下表所示: 按月收入水平分组(元) 400~600 600~800 800~1000 1000以上 合计 计算:(1)众数、中位数与平均数
(2)标准差系数 (3)分析数据的偏斜方向?
家庭数(户) 20 45 25 10 100 学生人数(人) 2 7 9 7 5 30 3、一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如下表所示: 15 19 22 24 30 16 19 22 24 31 17 20 23 25 34 18 20 23 27 38 19 21 23 29 41 (1)画出该组数据的茎叶图 (2)画出该组数据的箱线图
(3)根据茎叶图和箱线图说明上网者年龄的分布特征。
4、某种生产线的感冒冲剂规定每包重量为12克,超重或过轻都是严重问题,从过去的资料可知?是0.6,质检员每小时抽取25包冲剂称重检验,并做出是否停工的决策。假定产品重量服从正态分布。(
z0.05?1.65,z0.025?1.96)
(1)建立适当的原假设与备择假设。
(2)当?=0.05时,该检验的决策准则是什么? (3)如果x=12.25克,你将做出什么决策? (4)如果x=11.95克,你将做出什么决策?
??5、从均值?=5、标准差答:
?=10的总体中,抽取样本容量n=100的简单随机样本,样本均值记为x,试回
? (1)x的数学期望是多少? (2)x的标准差是多少? (3)x的抽样分布是什么?
6、设X ,X ,X 是取自某总体的容量为3的样本,试证明下列统计量都是该总体均值?的无偏估计量,并判断哪一个估计量更有效。 (1)?=1/2 X +1/3 X +1/6 X (2)?=1/3 X +1/3 X +1/3 X (3)?=1/6 X +1/6 X +2/3 X
???7、一家研究机构检查了吸烟者美誉在香烟上的花费,总共抽取了100名吸烟者作为样本,调查结果显示样本均值x=200元,样本方差s=35元。
(1)总体均值的点估计是多少?并解释其含义。
(2)用95%的置信水平,总体均值的置信区间是什么?并解释其含义。
(3)如果总共抽取了64个人,其他条件不变,那么总体均值95%的置信区间是什么?比较这两个置信区间有何不同?
8、某购物中心想了解有多大比例的顾客再付款时使用会员卡,调查了100个顾客,发现有32人在付款时用会员卡。
(1)估计总体比例的值。 (2)计算所估计比例的标准差。 (3)求出总体比例的标准差。 (4)解释以上你所求出的结果。
?9、某企业质检员从某天生产的一批食品袋中随机抽取36袋,测得其平均重量为200.5克,标准差为1.93克。
(1)试确定该天生产的食品袋平均重量95%的置信区间。
(2)若按照要求食品袋的标准重量至少为200克才算合格品,在当天抽检的36袋中有2袋重量低于200克,试确定该天生产的食品袋合格率95%的置信区间。
(3)若企业规定只有当天生产的食品合格率在95%以上的才属于生产正常,质检员认为目前企业的生产属于正常,试用假设检验的方法和步骤检验质检员的判断是否属实?(??0.05)。(注:
z?
2?z0.025?1.96 、
z?=1.65)
10、某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(克)如下: 每包重量(克) 96~98 98~100 100~102 102~104 104~106 合计 已知食品包重服从正态分布,要求:
(1)确定该种食品平均重量95%的置信区间;
(2)如果规定食品重量低于100克属于不合格,确定该批食品合格率90%的置信区间;
(3)采用假设检验方法检验该批食品的重量是否符合标准要求?(α=0.05)(写出检验的具体步骤)。
包数 2 3 34 7 4 50 11、某公司管理者想比较A、B、C、D四种培训方案的效果,随机抽取了48名工人并随机分配进行了四种培训,将培训结束后每组工人每小时组织产品数进行方差分析,得到了下面的分析结果: 方差分析表
差异源 组间 组内 总计 2) 若显著性水平?
12、下表为根据随机抽样样本计算出的部分方差分析表,请根据方差分析原理完成该表,并请用?=0.05的显著水平说明这些数据能否说明各总体均值之间是否存在明显差异。
方差来源 因素水平间方差 因素水平内方差 总差异 离差平方和SS 22.8 61.7 自由度df 18 21
均方MS F值 SS 4866 df MS 230 — F — — P-value 0.12 — — 1)完成上面的方差分析表;
?0.05,检验这四种培训方案效果是否有显著差异?并判断是否需要进行多重比较?
13、一家产品销售公司在30个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格(各地区的年人均收入(下面的回归结果(?方差分析表 变差来源 回归 残差 总计 参数估计表 Intercept X Variable 1 X Variable 2 X Variable 3 Coefficients 7589.1025 -117.8861 80.6107 0.5012 标准误差 2445.0213 31.8974 14.7676 0.1259 t Stat 3.1039 -3.6958 5.4586 3.9814 P-value 0.00457 0.00103 0.00001 0.00049 df 29 SS 13458586.7 MS 4008924.7 — F — — Significance F 8.88341E-13 — — x)、
1x)、广告费用(x)之间的关系,搜集到30个地区的有关数据。利用Excel得到
23?0.05):
1)将方差分析表中的所缺数值补齐。
2)写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。 3)检验回归方程的线性关系是否显著? 4)检验各回归系数是否显著?
5)计算判定系数R,并解释它的实际意义。
26)计算估计标准误差
sy,并解释它的实际意义。