习题一
1.结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由; (1)研究居住在某城市所有居民的食品消费结构;
(2)调查一个县各村的粮食播种面积和全县生猪的存栏头数; (3)为进行治疗,调查一地区小学生中患沙眼的人数; (4)调查一地区结核病的发生率; (5)估计一个水库中草鱼的数量;
(6)某企业想了解其产品在市场的占有率; (7)调查一个县中小学教师月平均工资。
2.结合习题1.1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。
3.讨论以下所列情况是否属于概率抽样,并说明理由: (1)从一个包含有100只兔子的实验室大笼子里抓10只兔子做实验。研究人员不经任何挑选抓到哪只就算那一只,抓满10只为止。
(2)将笼中的100只兔子编上1~100号,任意列出10个不重复的数字(为1~100之间的整数),以相应的兔子作为抽中作试验的样本;
(3)从钱包中随便抽出一纸币,凡兔子号码尾数与该纸币编号尾数相同者及作为抽中的样本。
4.某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么?
5.结合习题1.3与1.4的讨论,根据你的理解什么是概率抽样?什么是非概率抽样?它们各有什么优点?
6.请列举一些你所了解的以及被接受的抽样调查。 7.抽样的随机原则及其意义; 8.怎样理解抽样调查的科学性? 9.抽样调查基础理论及其意义; 10.抽样调查的特点。
习题二
(一)单项选择题
1.下列选项中,什么是总体里最小的,不可再分的单元
A 简单随机抽样 B 基本单元 C 初级单元 D 次级单元 2.哪种抽样方法是最简单的概率抽样方法?
A 简单随机抽样 B 分层随机抽样 C 系统抽样 D 整群抽样 (二)多项选择题
1.通常所要估计的总体特征包括
A 总体总值 B总体均值 C 总体比例 D 总体相关系数 E 总体比率 2.根据调查是否针对总体的所有单元,可以将调查分成( )
A 概率抽样调查 B 非概率抽样调查 C 全面调查 D 非全面调查 E 简单随机抽样调查
3.根据单元是否按照一定的概率入样,可以将调查分成( )
A 概率抽样调查 B 非概率抽样调查 C 全面调查 D 非全面调查 E 抽样调查 4.将概率抽样按照单元的入样概率是否相等进行分类,可以分成( )
A 简单随机抽样 B 整群抽样 C 等概率抽样 D 不等概率抽样E 非概率抽样调查 5.将概率抽样按照具体的抽样方式进行分类,可以分成( )
A 简单随机抽样 B 分层抽样 C 整群抽样 D 系统抽样 E 多阶段抽样 6.下面关于估计量的说法中,正确的是( ) A 估计量是随机变量
B 估计量是从样本的个单元计算出的对总体特征的估计
C 估计量取决于样本设计和正好被选入样本的单元的特别组合
D 一个特定的估计值是同一个样本设计所能得到的唯一的一个估计值 E 估计量有自己的分布形式 7.抽样框的形式可以是( )
A 名单 B 手册 C 地图 D 数据包 E 电话号码簿 (三)名词解释题
1.抽样调查:从构成总体的所有单元中按一定程序选择一部分单元,并根据这部分单元的特征估计或推断总体特征的调查。
2.抽样误差:由于用样本数据对总体特征进行估计所引起的代表性误差。
3.非抽样误差:非抽样误差的来源比较复杂,主要有抽样框未能不重不漏地包含所以抽样单元导致的抽样框误差,调查测量不准确引致的测量误差,此外还有无回答误差,粗大误差等。 4.判断抽样:也称为立意抽样,指的是由抽样者根据自己的主观经验抽取样本。 5.自愿“抽样”:是指样本由自愿参加的受访者所构成的抽样。
6.便利抽样:是调查人员根据自己的方便,自行确定入样的单元。
7.滚雪球抽样:是利用样本点(构成样本的单元)寻找样本点,即由目前的受访者去寻找新的具有某一特征的受访者。 (四)简答题
1.简述调查的主要步骤,并思考抽样设计在其中的作用 2.试说明绝对误差限,置信区间与置信水平之间的关系
3.请列举出四种基本的概率抽样方法,并简要说明各种抽样方法的思想 4.误差主要包括哪两类?引起的原因分别是什么? 5.试说明以下术语或概念之间的关系与区别:
(1)总体、样本与个体; (2)总体与抽样框;
(3)个体、抽样单元与抽样框。 6.试说明以下术语或概念之间的关系与区别: (1)均方误差、方差与偏倚;(2)方差、标准差与标准误; (3)无偏估计、祥和估计量与可用估计量;(4)绝对误差限、置信限(置信区间)与置信度。
7.样本可能数目及其意义; 8.影响抽样误差的因素; 9.抽样分布及其意义; 10.抽样估计的基本原理; 11.置信区间的确定。 (五)计算题
1. 讨论下面两种情况是否属于概率抽样?
(1)从一个装有30只小鸡的箱子里抓5只小鸡卖掉。商贩不作任何挑选,随便抓满5 只为止。
(2)将箱中的30只小鸡编上1-30号,然后从中随机抽取5个数字,然后把抽出的5个数字所对应的小鸡抓出来卖掉。 2. 简述均分误差,估计量方差和偏倚三者的关系。现有估计量a和b,a是无偏估计量;V(a)=16,V(b)=9,B(b)=2。试问在均分误差准则下a和b哪个估计量的误差更小?思考:无偏估计量一定好吗? (六)设计题
为了了解北京市民对目前北京市公共环境卫生以及绿色建设方方面的满意程度和期望程度,计划组织一次关于“北京市公共环境卫生状况的调查”,从而为绿色北京的建设提供指导性建议和意见,为2008年奥运会尽一份力量。
请针对这一调查目的,设计一份调查问卷。要求问卷能真正反映调查目的,并对相关部门的实际工作起到指导性的作用。同时还要充分考虑数据处理的难易程度。 答案:单选1.B 2.A
多选1.ABCE 2.CD 3.AB 4.CD 5.ABCDE 6ABCE 7.ABCDE
习题三
(一)单项选择题
1. 抽样比的计算公式为( )。
A. f= (n-1)/ (N-1) B. f=n/N C. f= (n-1)/N D. f= (N-n)/N 2. 不放回的简单随机抽样指的是哪种情形的随机抽样?( ) A. 放回有序 B. 放回无序 C. 不放回有序 D. 不放回无序 3. 放回的简答随机抽样指的是哪种情形的随机抽样?( ) A. 放回有序 B. 放回无序 C. 不放回有序 D. 不放回无序 4. 通常所讨论的简单随机抽样指的是( )。 A. 放回的简单随机抽样 B. 放回无序随机抽样
C. 不放回有序随机抽样 D. 不放回的简单随机抽样 5. 下面给出的四个式子中,错误的是( )。
?)?Ry )?YNy A. E ( B. E ( ) ? Y C. E ( p ) ? P D. E (R6. 关于简单随机抽样的核心定理,下面表达式正确的是( )。
s) ?s B. V A. V ( y (y)?n?1n
12 C. V s D. V(y)?1?fs2( y ) ?nn
7. 下面关于各种抽样方法的设计效应,表述错误的是( )。 A. 简单随机抽样的deff=1 B. 分层随机抽样的deff>1 C. 整群随机抽样的deff>1 D. 机械随机抽样的deff≈1
8. 假设考虑了有效回答率之外所有其他因素的初始样本量为400,而设计有效回答率为80%,那么样本量应定为( )。 A. 320 B. 500 C. 400 D. 480
9. 在要求的精度水平下,不考虑其他因素的影响,若简单随机抽样所需要的样本量为300,分层随机抽样的设计效应deff=0.8,那么若想达到相同的精度,分层随机抽样所需要的样本量为( )。
A. 375 B. 540 C. 240 D. 360 (二)多项选择题
1. 随机抽样可以分为( )。 A. 放回有序 B. 放回无序 C. 不放回有序 D.不放回无序 2.随机抽样的臭气原则是( ) A.随机取样原则 B.抽样单元的入样概率已知 C.抽样单元的入样概率相等 D.先入为主原则 E.后入居上原则 3.辅助变量的特点( ) A.必须与主要变量高度相关
B.与主要变量之间的相关系数整体上相当稳定 C.辅助变量的信息质量更好
D.辅助变量的总体总值必须是已知的,或更容易获得 E.辅助变量可以是任何一个已知的变量 4.影响样本容量的因素包括( )
A.总体规模 B.(目标)抽样误差 C.总体方差 D.置信度E.有效回答率 5.在实施调查的过程中,有时不能得到有效的信息,其原因在于( ) A.抽样框存在缺陷
B.受调查者调查期间总是不在 C.访问员的疏失
D.设计和管理上的缺陷 E.不同样本间的差异太大
6.简单随机抽样的实施方法( ) A.抽签法
B.利用统计软件直接抽取法 C.随便抽取法 D.随机数法 E.主观判断法
7.预估方差的方法包括( ) A.利用先前的调查结果和经验 B.利用预调查和试调查的结果
C.利用同类或相似或有关的二手数据的结果
1?f21?f2 D.利用主观臆断
E.利用富有经验的专家的判断 8.产生随机数的方式有( ) A.使用计算器 B.使用计算机 C.使用随机表 D.使用随机数色子
E.使用电子随机数抽样器 (三)简答题
1.简述样本容量的确定步骤。 2.简述预估方差的几种方法 (四)计算题
1.为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取300户进行调查,现得到其日用电平均值为9.5(千瓦时),方差为206。试估计该市居民日用电量的95%的置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少?
2.某大学10000名本科生,现欲估计在暑假期间参加了各类英语培训的学生所占的比例,随机抽取了200名学生进行调查,得到p=0.35。试估计该大学所有本科生中暑假参加培训班的比例的95%的置信区间。
3.研究某小区家庭用于文化方面(报刊、电视、网络等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:
估计该小区的平均文化支出,并给出置信水平95%的置信区间。
4.对某问题进行调查,在总体中抽取一个样本容量为200的简单随机样本,若赞成、反对及不表态的人数分别为:n1=132,n2=51,n3=17,试给出赞成、反对或不回答比例P1、P2、P3的近似置信区间。设N很大,f可忽略。
5.在人口变动情况的调查中,出生率是一个重要的指标.根据以前的调查数据,出生率的估计可取为18‰,问在置信度95%下,实际调查估计P的绝对误差限为0.5‰和相对误差限5%各需多大的样本量(忽略fpc,且N-1≈N)?
6.某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到均值为1220吨,方差为25600,据此估计该地区今年的粮食产量,并给出置信水平95%夫人置信区间。
7.某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方米,置信水平为95%,现根据以前的调查结果,认为总体方差为68,是确定简单随机抽样所需的样本量,若欲估计有效回答率为70%,则样本量最终为多少?
8.某地区对本地100家化肥厂的尿素产量进行调查,以至去年的总产量为2135吨,抽取10个企业调查今年的产量,得到样本均值为25吨,这些企业去年的年平均产量为22吨。是采用比率估计方法计算该地区化肥总产量。 9.请证明教材中的定理3.3:对简单随机抽样,有 1?fCov(y,x)?Sxy n
N 其中, S ? 1 (Y ? Y )( X ? X ) 为总体协方差.
xyiin?1i?1
10.如果在解第3题时,可以得到下表中的家庭月总支出,而全部家庭的总支出平均为1600,利用比估计的方法估计平均文化支出, 给出置信水平95%夫人置信区间,并比较比估计和简单估计的效率。
?
11.某养牛场购进120头肉牛,购进时平均体重为100公斤,先从中抽取10头,,记录重量,三个月后再次测量,结果如下:
请采用回归估计法计算120头牛现在的平均重量,计算其方差的估计,并和简单各界的结果进行比较。
答案:单选:1B2D3A4D5D6A7B8B9C
多选1ABCD 2ABC 3ABCD 4ABCDE 5ABCD 6ABD 7ABCE 8ABCDE 习题四
(一)单项选择题
1、分层抽样设计效应满足()
deffdeff A、 ? 1 B、 ? 1 deff C、 ? 1 D、deff ?12、分层抽样的特点是() A、层内差异小,层间差异大 B、层间差异小,层内差异大 C、层间差异小 D、层内差异大
3、下面的表达式中错误的是() A、 f h ? 1 B、 n h?n C、 W h ? 1 D、 Nh?14、在给定费用下估计量的方差达到最小,或者对于给定的估计量方差使得总费用达到最小的样本量分配称为()
A、常数分配 B、比例分配 C、最有分配 D、奈曼分配
VV prop5、最优分配( opt )、比例分配( )的分层随机抽样与相同样本量的简单随机抽样( )
的精度之间的关系式为(V srs )
VV? V A、 opt prop ? V srs B、 prop ?Vopt?VsrsVsrsV srs C、V prop ? V opt ? D 、 ?Vprop?Vopt6、下面哪种样本量分配方式属于比例分配?( )
NhShchn h A、 n n B、
h?L? nNhNNhShch h?1 nhNSnhWhSh?Lhh? C、 n D、 L??????Nh?1hShn?WShh?1h
7、下面哪种样本量分配属于一般最优分配?( A、 n ? n )
h NhN B、 n hNhShch
n??LNhShch
nh?1hNhSh C、 n ? ? L nhWS N D、
hSh?hh?Lh?1n WhShh?1(二)多项选择题
1.分层抽样又被称为( ) A. 整群抽样 B. 类型抽样 C. 分类抽样 D. 系统抽样 E. 逆抽样
2.在分层随机抽样中,当存在可利用的辅助变量时,为了提高估计精度,可以采用( A. 分层比估计 B. 联合比估计 C. 分别回归估计 D.联合回归估计 E. 分别简单估计
3.样本量在各层的分配方式有( ) A. 常数分配 B. 比例分配 C. 最优分配 D. 奈曼分配 E. 等比分配
4.分层抽样的优点有( )
A. 在调查中可以对各个子总体进行参数估计 B. 易于分工组织及逐级汇总
C. 可以提高估计量的精度
D. 实施方便 E. 保证样本更具有代表性
5.关于分层数的确定,下面说法正确的有( )
A. 层数多一些比较好 B. 层数少一些比较好 C. 层数一般以不超过6为宜D. 层数一般以4 层为最好
E. 应该充分考虑费用和精度要求等因素来确定层数 6.下面哪种样本量分配方式属于奈曼分配? ( )
A、 n h n B、 nNh N?h?ShchhN
n?LNhShch nh?1hWhShC、 n ? L D、 nh?NhSh ?WLhShn
h?1?NhShh? E、 nh?Wc1hSh/h n?LWhSh/c
hh?17.事后分层的适用场合有( ) A. 各层的抽样框无法得到
) B. 几个变量都适宜于分层,而要进行事先的多重交叉分层存在一定困难 C. 一个单位到底属于哪一层要等到样本数据收集到以后才知道 D. 总体规模太大,事先分层太费事 E. 一般场合都可以适用 (三)名词解释题
1、分层随机抽样:如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样。
2、自加权:若总体总量(或总体均值)的一个无偏估计量可以表示成样本基本单元的变量值总量(或均值)的一个常数倍,即: ky (或 Y ? , 其中,y为样本基本单元Y ?ky)的变量值总量; 为样本基本单元的变量值均值。则称这种估计量为自加权(self-weighting)y的等加权(equi-weighting)。
3.最优分配:在分层随机抽样中,对于给定的费用,使估计量V(y st ) 的方差达到最小,或者对于给定的估计量方差V,使得总费用达到最小的各层样本量的分配称为最优分配。 (四)简答题
1. 简述分层随机抽样相对于简单随机抽样的优点.
2. 请列举出样本量在各层的三种分配方法,并说明各种方法的主要思想. (五)计算题
1.抽查一个城市的家庭,目的是评估平均每个住户很容易变换为现款的财产金额。住户分为高房租和低房租的两层。高房租这一层每家拥有的财产被看作是低房租层每家所拥有财
S 产的9倍, 层的均值的平方根成正比。高房租层有4000个住户,低房租层有2000h与第h个住户。请问:
(1)包含1000个住户的样本应该如何在这两层中分配?
(2)若调查的目的是估计这两层平均每个住户拥有财产的差额,样本应如何分配(假定各层的单位调查费用相等)?
2.一个县内所有农场按规模大小分层,各层内平均每个年农场谷物(玉米)的英亩数列在下表中
NhYhSh
现要抽出一个包含100个农场的样本,目的是估计该县平均每个农场的玉米面积,请问: (1)按比例分配时,各层的样本量为多少?
(2)按最优分配时,各层的样本量为多少?(假定各层的单位调查费用相等) (3)分别将比例分配、最优分配的精度与简单随机抽样的精确度比较。
th? t h n3.设费用函数具有形式 C ? c 0 h ,其中 c 0 及 均为已知数,请证22WSn明当总费用固定时,为了使 V ( y ) 达到最小值, h 必与 ( h h ) 2/3 成比例。
stth
并求出下述条件中,一个含量为1000的样本所对应的 n h 。
?WhShth
4.在一个商行内,62%的雇员是熟练的或不熟练的男性,31%是办事的女性,7%是管理人员。从商行内抽取由400人组成的一个样本,目的是估计使用某些娱乐设备的人所占的比例。按照粗略的猜测,这些设备40%到50%是由男性使用的,20%到30%是由女性使用的,5%到10%是由管理人员使用的。请问:
(1)你如何把样本单位分配在这三组人之间? (2)若真正使用者占的比例分别是48%,21%和4%,则估计比例的标准误是多少? (3)n=400的简单随机样本算得的p的标准误是多少?
5.为调查某个高血压发病地区青少年与成年人高血压患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果见下表。求总体高血压患病率P的估计及其标准差的估计。
高血压患病率调查数据
26.设计某一类商店销售额的调查,n=550,三层中的两层有以前调查的资料可用来得到S h
S 3 的的较好的估计值。第三层是一些新开设的商店和以前调查中没有销售额的商店,因此,
值只好加以猜测。若 S 3 的实际值是10,当被猜作(a)5, (b) 20时,请分别计算一下由奈曼分配所得的估计量的V ( y st ) 。并请证明在这两种情况下,与真正的最优值相比,方差中按比例的增量稍大于2%。
ShWhSh
7.调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层抽取10个村作为样本单元,经过调查获得下列数据: 请估计该地区养牛总头数Y及其估计量的相对标准差 s ( Y ) / Y
8.一公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管理人员的事故率不同,故采用分层随机抽样。已知下列资料: 若总样本量n=30,试用奈曼分配确定各层的样本量。
N1N22S2N3S12S32
9.上题中若实际调查了18个工人、10个技术人员、2个行政人员,其损失的工时数如下: 试估计总的工时损失数并给出它的置信度为95%的置信区间。
10.某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分为平原和山区
两层采用分层抽样。同时当年产量和去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有120个村,去年总产量为24500(百斤),山区共有180个村,去年总产出为21200(百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料列在下表中。试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上面的两种结果进行比较和分析.
平 原
山 区
答案:单选1.B 2.A 3.A 4.C 5.A 6.A 7.B
多选1.BC 2.ABCD 3.ABCD 4.ABCDE 5.CE 6 .CD 7.ABCD
习题五
(一)单项选择题
1.( )是最简单的不等概率抽样。 A. 整群抽样 B. 多项抽样 C. 多阶段抽样 D. 系统抽样
2. 下面有关包含概率和性质的表达式中,错误的是( ) NN A. ? i ? n B.
?ij?(n?1)?ii?1 j?1 NNN1??n(n?1) C. ? ij ? D. (n?1)?i?jij2i?1j?1j?1
(二)多项选择题
1. 多项抽样的实施方法包括( ) A. 布鲁尔(Brewer)方法 B. 拉希里(Lahili)法
C. 重抽法 D. 代码法 E. 插补法
2. 对于不放回的不等概率抽样,其样本的抽取方法包括( ) A. 逐个抽取法 B. 重抽法 C. 系统抽取法 D. 全样本抽取法 E. 插补法
(三)名词解释题
1. 不等概率抽样:如果总体中每个单元进入样本的可能性是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。
N2. 多项抽样:设 Z 1 , Z 2 ,..., Z N 是一组概率, ,按这组概率对总体中的N个单元
Zi?1 i?1进行放回抽样,每次抽到第 i 个单元的概率为 Z i ,独立地进行这样的抽样n次,则称这种不等概率抽样为多项抽样。
3. pps抽样:在多项抽样中,如果是放回抽样,且每个单元入样概率与其大小或规模 M i严
NMi 是第 个单元的大 格成比例,即当n固定时,记 Z ? M M ( M ? M )。其中,
ii00ii?1 NM小或规模(size)的度量; 0 ? M i是总体中所有单元的“大小”之和。我们将此种情形
i?1的多项抽样称为pps抽样。
?? PS4. 抽样:在多项抽样中,如果是不放回抽样,且每个单元的包含概率 i与其大小或规NM模 i严格成比例,仍记 Z i ? M i M M i i ? nZ ,将这),有 ?i0(M0?i?1?种情形的多项抽样简称为严格 PS 抽样。
(四)简答题
请分别说明代码法和拉希里法的实施过程 (五)计算题
Z i ,如下表所示。试利1.对一个N=10的总体进行调整,事先规定了每个单元被抽中的概率
用代码法抽出一个n=3的pps样本。
???????i??iZiiZi
2. 假设上面第1题中被抽中的是3,5,7号单元,经过调查,这三个单元的观测值分别为1187,426,1253,试估计总体总量并计算估计量的方差和标准差。
3. 某部门要了解所属8500家生产企业当月完成的利润,该部门手头有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异较大,通常大企业的管理水平较高,因此采用与上年产量成比例的 PPS 抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下表所示:
imiyiimiyiimiyi注:*号表示该样本被抽中两次; m i 为该企业上年完成的产量(单位:万吨); y i 为企业当月完成的利润(单位:百万) 请根据表中的调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下估计的相对误差。如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少? 4.假设有5个小区,每个小区的住户数X已知,但常住居民人数未知,现从5个小区中按照不放回的不等概率抽样抽出2个小区进行调查,进而估计5个小区的常住居民总数。数据如
?i下表:
Xi注:表中的包含概率 ? i 按照,? i?nXiX0X0? 算得
(1)请根据表中数据计算出所有可能样本的霍维茨—汤普森(Horvitz-Thompson)估计量以及简单随机抽样的简单估计量。 (2)倘若抽样是按照布鲁尔(Brewer)方法进行的严格 ? PS 抽样,请比较霍维茨—汤普森(Horvitz-Thompson)估计量与简单随机抽样的简单估计量的精度。
5.假设总体的大小N=5,单元指标值分别为10,20,30,40和50,采取n=2的不放回 ? PS 抽样。试列出所有可能的样本,计算每个单元和每对单元被抽入样本的包含概率? i 和? ij ,并验证 ? i ? 2, ? ij。? ?ij?i
6. 某个大型企业欲估计整个企业人员一年的人均病假天数,该企业有8个子公司,为了方便起见拟抽取3个公司进行调查然后推断整个企业,但每个子公司的人数不同,而且差别很大,所以采用按人数成比例的pps抽样。 各子公司的人数
???
(1)请列举一种抽选方法,说明抽选的步骤。
(2)若抽中的是第3,6,8这三个子公司,其病假的总数分别为4320人日,4160人日和5790人日,估计全企业的人均病假天数,并计算抽样标准误。
7. 某地区欲调查水稻播种面积,以村作为抽样单元,采取按普查人数进行放回的pps 抽样,共抽中10个村,其数据如下: 已知该地区普查人口总数为415149
(1)估计该地区的水稻种植面积和相对标准差;
(2)若要求相对标准差控制在2%以内,求必要的样本量。
8. 有一个估计某城镇现有第三产业单位数的例子。假设有去年年底的普查数和现有的实际单位数,分街道统计如下:
假设n=1,采用以下几种估计量: (1)等概率抽选,简单(无偏)估计; (2)等概率抽选,以去年普查数为辅助变量的比估计; (3)按与去年普查数成比例的概率抽样,汉森—赫维茨估计。 比较这三种估计的方差,并加以讨论 (六)设计题
如果设想从全国各省(市、区)中随机抽取若干省(市、区)进行调查以估计全国某年生产总值,你认为因该采用等概率抽样还是不等概率抽样?如果采用不等概率抽样,那么各省(市、区)的入样概率以什么指标计算比较好,请以小组为单位进行讨论。 答案:单选:B C 多选:BD ABCD
习题六
(一)单项选择题
1. 两阶(段)抽样中,对于一个估计量的均值可以表示为( )。
???)] A、 E ( ? ?) ? E 1 [ E 2 ( ? )] B、 E ( ) ? E2[E1(??
1?)]?)?1[E(??)?E(??)]E(? C、 ? ) ? [ E 1 (? ? ) ? E 2 ( ? D、E (?12222、关于多阶段抽样的阶段数,下列说法最恰当的是( )。
A.越多越好 B.越少越好 C.权衡各种因素决定 D.根据主观经验判断
3.在初级单元大小相等的分层二阶段抽样中,关于自加权的说法错误的是( )。 A.自加权在这里是指在每层抽样中,每个次级单元被抽中的概率皆相等或是等价的 B.每一层总的抽样比 为常数 C.自加权估计量一般计算比较简单
nND.分层二阶段抽样自加权的条件为: hh?f0(h?1,2,?,L)mhMh
4、在多阶段抽样中,当初级单元大小相等时,第一阶段抽样通常采用( )。 A.系统抽样 B.简单随机抽样 C.不等概率抽样 D.非概率抽样
5、初级单元大小不等的多阶段抽样中,无偏估计量成为自加权的条件是( )。 A.第一阶段每个单元被抽中的概率相等 B.第二阶段每个单元被抽中的概率相等 C.最终阶段每个单元被抽中的概率相等 D.最终阶段每个单元被抽中的概率不等 6. 在初级单元大小相等的二阶段抽样中,当抽取次级单元的数量相等时,二阶段抽样的方差与整群抽样方差以及分层抽样方差之间的关系通常为( )。 A.二阶段抽样的方差<整群抽样的方差<分层抽样的方差 B.二阶段抽样的方差>整群抽样的方差>分层抽样的方差 C.分层抽样的方差<二阶段抽样的方差<整群抽样的方差 D.分层抽样的方差>二阶段抽样的方差>整群抽样的方差 (二)多项选择题
1.二阶段抽样中,初级单元大小不等时,一般可采用下面方法( )。 A.通过分层,将大小近似的初级单元分到一层,然后采用分层二阶段抽样 B.可按初级单元大小相等的方法处理
C.考虑用不等概率的抽样方法抽取初级单元
D.采用简单随机抽样抽取初级单元但改变估计量的形式 E.近似看成初级单元大小相等
2.确定样本量时需要考虑的因素有( )。 A.调查的费用 B.调查要求的精度
C.调查的时间 D.调查的技术 E.调查的目的
3.初级单元大小不等时,下面关于二阶段抽样总体总和的估计的说法正确的有( )。
A.可以采用放回的抽样方式,按不等概率抽取初级单元,此时可得总体总和 的估计量
?1nMy1nYB.采用不放回抽样方式,按简单随机抽样抽取初级单元,此时有 ?iiiYHH?? ni?1zini?1zin ?Yi i?1??MY0nC. 采用不放回抽样方式,按简单随机抽样抽取初级单元,此时 RMi
i?1 nn?MiyiYi??D. 采用不放回抽样方式,按不等概率抽样,此时有 YHT?i?1?ii?1?i
nN??E.可以采用放回的抽样方式,按简单随机抽样抽取初级单元,此时有 YMiyini?14.在二阶段抽样中,对比例的估计通常采用( )。
A.两阶段均采用等概率抽样,用比率估计的方法 B.第一阶段采用抽样,第二阶段采用等概抽样 C.两阶段均采用简单随机抽样,用简单估计的方法 D.两阶段均采用抽样
E.第一阶段采用等概抽样,第二阶段采用等概抽样
5.多阶段抽样相对于简单随机抽样的优点有( )。 A.实施方便
B.每个基本单元的调查费用比较低 C.能够充分发挥抽样的效率 D.节省人力、物力 E.可以分级准备抽样框
6.二阶段抽样中,关于总体比例的表达可以为( )。
n A、P ? Y B、 1P?Pi Ni?11n1n C、 Y i D、 P ?P?AiMNi?1Mi?1
1nAi E、P ?MNi?1
(三)计算题
1.对某商店上月销售额根据发票进行抽样估计,若该商店上月共用了18本发票,现用随机方法抽取了4本发票,每本发票有200张,从抽中的发票本中,每本分别随机抽取了40张发票,经过整理取得数据如下: 发票调查情况
???????????i?yj?140?ij402yijj?1
要求估计该商品上月销售额及估计的标准差。 2.欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水账,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水账。调查的结果如下表: 对5家企业的调查结果
要求根据这些数据推算100家企业改指标的总量,并给出估计的95%置信区间。
3.某部委对所属企事业单位就一项改革方案进行抽样调查,采用二阶抽样。先在全部个单位(平均每个单位职工人数=250)中按简单随机抽样抽取n=350个单位,然后对抽中的每个单位再按简单随机抽样抽取m=8个职工进行调查。样本单位中赞成此项改革方案人数为k的单位频数(k=0,1,…,8),及赞成比例列在下表中,试估计该部委全体职工赞成该项方案的比例p,给出估计两的方差估计。 某部委350个单位对一项改革方案的调查结果
nkpk
4.欲调查某个新小区居民户家庭装潢聘请专业装潢公司的比例。我们在15个单元中随机抽取了5个的单元,每个单元有12户,在这5个单元中分别随机抽取了4户居民并进行了调查,对这20户的调查结果如下表: 被抽中的20户调查结果
要求根据这些数据推算居民家庭装潢聘请专业装潢公司的比例。
5.某县农村共有14个乡509个村,在实现小康的进程中欲计算该县农村的恩格尔系数,即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用了二阶抽样,第一阶段先在14个乡中,按村的数目多少进行pps抽样,共抽了5个乡,第二阶段在抽样中的乡中随机的抽取6个村做调查,然后对抽中的村做全面调查,取得数据如下:
iMi
mi
要求估计全县的食品支出总金额及估计的标准误差。
6.某服装联合企业,下面有90个缝纫厂,共有缝纫机4500台,据反映由于机器经常出现故障影响生产,管理部门拟用抽样方法调查上月每台机器因故障而停工的平均小时数,现采用二阶段抽样,第一阶段按简单随机抽样抽取10个工厂,第二阶段在抽中的工厂中抽20%的机器做样本,根据样本机器得如下数据:
iMi
miyi2s2i
要求估计上月每台机器平均的停工时间和由于停工引起的总时间损失,并计算相对标准差。
7.某小区拥有10座高层建筑,每座高层建筑拥有的楼层数如下表所示: 每座高层建筑拥有的楼层数
用二阶段抽样方法抽出10个楼层进行调查,第一阶段抽样为放回的、按于每座建筑拥有的楼层数成比例的不等概率抽样抽取5座建筑,第二阶段按简单随机抽样对每座建筑抽取两个楼层。对10个楼层居民人数的调查结果如下,请对小区总居民数进行估计,并给出估计的精度。(95%的置信度)
被调查小区总居民数
8.某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女生宿舍200间,每间住6位同学。学生会的同学运用二阶段抽样设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取了3位同学分别进行单独访问,两个阶段的抽样都是简单随机抽样,调查的结果如下: 调查结果
试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。
9.上题中,学生会对女生勤工俭学月收入的一项调查中,根据以往同类问题的调查,宿舍的标准差为 s 1=326元,宿舍内同学之间的标准差为 c 1=188元。以一位同学进行调查来计算,
c 2为1分钟,为了调查需要做各方调查每个宿舍的时间 c 1为10分钟,调查每一学生的时间
面的准备及数据计算等工作,所花费的时间是c 如果总的时间控制在8个小时内,0为4小时,则最优的样本宿舍和样本学生数为多少? (四)简答题
1.什么是多阶段抽样?多阶段抽样有哪些优点?
2.能否举例说明多阶段抽样在实际生活中有哪些应用? (五)设计题
某学校欲调查学生每月的零用钱数量。假设该学校共有18个班级,每个班级都有60个学生。请你设计一个调查方案,并说明你是如何确定样本量的。 答案: 1A2C3D4B5C6C
多选:1ACD 2AB 3ABCD 4.AB 5ABCDE 6ABCE
习题七
(一)单项选择题
1.整群抽样中的群的划分标准为( )。
A.群的划分尽可能使群间的差异小,群内的差异大 B.群的划分尽可能使群间的差异大,群内的差异小 C.群的划分尽可能使群间的差异大,群内的差异大 D.群的划分尽可能使群间的差异小,群内的差异小 2.整群抽样的一个主要特点是( )。 A.方便 B.经济
C.可以使用简单的抽样框
D.特定场合中具有较高的精度
3.群规模大小相等时,总体均值 的简单估计量为( )。 nM?1nM?1 A、 ? y ij B、 Y?YyijnMi?1j?1n?M?1?i?1j?1
nM??1nM1 C、 D、 Y?yijY?yijnNi?1j?1i?1j?1
4.群规模大小相等时,关于总体方差的说法正确的是( )。 2M?122?[(N?1)?N(M?1)]A.总体方差的一个无偏估计为: b?NM?1 2M22?[(N?1)?N(M?1)]B.总体方差的一个无偏估计为: b?NM?1 2122?[(N?1)b?N(M?1)?]C.总体方差的一个无偏估计为:
N(M?1)
2122[(N?1)b?N(M?1)?]D.总体方差的一个无偏估计为: ?NM?1
5.下面关于群内相关系数的取值说法错误的是( )。
2A.若群内次级或基本单元变得值都相等则 ? ? 0,此时 c 取最大值1 B.若群内方差与总体方差相等,则 c ? 0 ,此时表示分群是完全随机的 C.若群内方差大于总体方差时,则 取负值
21D.若 ? ? 0 时, c 达到极小值,此时 c?M?16.整群抽样中,对比例估计说法正确的是( )。
1nA.群规模相等时,总体比例P的估计可以为: p?ni?1i nnB.群规模不等时,总体比例P的估计可以为: ?(p)/()iii?1i?1 n21C.群规模相等时,总体比例P的方差估计为:v (p)?in(n?1)i?1
nD.群规模不等时,总体比例P的方差估计为:
ii1 i?1v(p)??2n?1 n(二)多项选择题
?????????SSS?S?SSSSS?SSSPSPSPP?A?A?M?(P?p)?(A?pM)2M1.下面关于整群抽样的说法,有哪些是正确的?( ) A.通常情况下抽样误差比较大
B.整群抽样可以看作为多阶段抽样的特殊情形,即最后一阶抽样是100%的抽样 C.调查相对比较集中,实施便利,节省费用
(MD.整群抽样的方差约为简单随机抽样的方差的 1 ? ? 1) 倍
cE.为了获得同样的精度,整群抽样的样本量是简单随机抽样的 1 ? ( M ? 1) 倍。
c2.关于整群抽样(群规模相等)的设计效应,下面说法正确的有( ) A. deff?V(y)?1?(M?1)c(y) srsB.为了获得同样的精度,整群抽样的样本量是简单随机抽样的 ? 1) 倍 1 ?(Mc22?C.群内相关系数的估计值为 ??2b2c ?(M?1)b?
D.要提高整群抽样估计效率,可通过增大群内单元的差异实现
E.整群抽样的精度取决于群内相关系数,群内相关系数越大,则估计量的精度越高 3.关于群规模不等时,可以采用的估计量形式有( )。
nnnnMii0i A. y ? 1 ? 1 ( / ) B. y ? 1?ini?1ini?1ni?1ini?1j?1ij inn?Y1 C. D. ? Y??i i?1Mni?1i0nR
i i?1n1 E. y ?ni?1i
4.关于群规模大小不等时,下列说法正确的是( )。 A.若 i相差不多,则一般以平均群大小 代替 ,依照群规模 i 大小相等的情形处理
B.如果 i相差较大,可将群按大小分层,使每一层内群的规模 i大小基本相等,从而仍可使用群规模 i大小相等时的处理方法
C.对群仍用简单随机抽样,采用简单估计的形式 D.对群仍用简单随机抽样,采用比例估计的形式 E.对群仍用简单随机抽样,采用加权估计的形式 (三)名词解释题
群内相关系数(interclass correlation coefficient)
表示同一群内不同次级或基本单元的变量值对总体均值的离差乘积的期望值与总体中所E(Yij?Y)(Yik?Y)有次级或基本单元变量值对总体均值离差平方的期望值之比,即: ?c? E(Yij?Y)2(四)计算题
1.设某灯泡厂每天生产一批灯泡共200盒,每盒装灯泡6只,今随机抽取8盒,检验其点燃小时数的资料,如下表所列。
(1)计算样本平均点燃时数,并分别按整盒和按灯泡计算其抽样平均误差,比较其估计精度。
(2)如果点燃小时数不到1000的为不良品,计算其样本不良率,并分别按整盒和按灯泡计算其抽样方差,比较何者较优。
??V???ss?ss?y??yM?Y?yMyMy??zM?y?M?yMMMMMMM某灯泡厂点燃小时数的检验资料 单位:小时
2.某大学为了估计全校学生在1991年夏天对安徽、江苏灾区的捐款总数,从全校124个班随机的抽取10个班级进行调查,数据如下表所示,并假定这10个班的400名学生中分别捐4.5元,5.0元,5.5元,6.0元和6.5元的都各有80名。
10个班级的捐款情况 单位:元
(1)求该校学生平均捐款数和捐款总数的估计值;
(2)计算该校学生捐款总数估计值的抽样方差,以及捐款总数的95%的置信区间。
3.在一次对某寄宿中学在校生零花钱的调查中,以宿舍作为群进行整群抽样。每个宿舍有6名学生。用简单随机抽样在全部315间宿舍中抽取n=8间宿舍、全部48个学生上周每人的零花钱 ij 及相关计算数据如下表。试估计该学校平均每个学生每周的零花钱 ,并给出其95%的置信区间。
yY
4.估计上题中以宿舍为群的群内相关系数与设计效应。
5.带锯厂负责对他的用户进行修理,其修理费用每季结算一次。该厂共有96家用户,各拥有不同带锯数,现采用等概简单随机方法抽取20家为样本,资料如下:
(1)估计每一带锯的平均修理费用及置信区间(а=0.05)。
(2)根据上述资料估计96家用户的修理费用及置信区间(а=0.05)。
(3)若已知这96家用户有710条带锯,利用这一补充信息估计总的修理费用和置信区间。 (4)欲估计下一季度的每带锯平均管理费用,绝对误差Δ=2,试问应抽取多少户作样本。 6.邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个群,每群10户,现随机抽取4个群,取得资料如下所示:试估计平均每户家庭的订报份数及总的订报份数及估计量的方差。
7.汽车运输公司抽样调查在使用的车辆中不安全轮胎的比例,在175辆车中抽中了25辆,其不安全的轮胎数如下:
请估计该运输公司的汽车中不安全轮胎的比例及估计量的方差。
8.某市建筑行业集团共有48个单元,有载货汽车186辆。按每个单元的车辆拥有量成比例的概率进行放回的PPS抽样,共抽取10次,对抽中单元的所有车辆调查季度运量(单位:吨)。样本数如下(其中有一单元被抽中2次,即i=3,7)。试估计全集团的季度总运量及95%的置信区间。
9.对某居民小区居民进行电话拥有情况的调查,以每个楼层(相当于居民小组)为群进行整群抽样,每个楼层都有M=8个住户。用简单随机抽样在全部N=510个楼层中抽取n=12个楼层。下表是12个样本楼层装有电话的住户数 及在楼层8户中所占的比例 i的资料,试对该小区的电话拥有率P进行估计。 (五)简答题
1 什么是整群抽样,整群抽样有哪几个步骤? 2 整群抽样有哪些优点?
3 整群抽样与多阶段抽样及分层抽样的区别? (六)设计题
欲调查城市的猪肉人均消费量,讨论下列情况下采用街道作为群的整群抽样是否合适,如果不合适,你认为采用什么抽样方式好。 (1)少数民族的居住比较集中; (2)少数民族比较均匀地分布在各条街道;
(3)少数民族分散在各街道,但比重不同。
答案:单选:ADADDB
多选:1ABCE 2ABCD 3ACD 4ABCDE
a习题八
(一)单项选择题
1. 某班级共有60名学生,要以直线等距抽样选出15个学生为样本,调查学生的到课率,则下列做法正确的是( )
A. 将60名学生一次编为1~60 B. 计算抽样间距为4
C. 从1~4随机抽取一个数,作为抽样的起始单元号,按每隔4个单元抽取一个,直至抽出15个样本
D. 以上都正确
2. 相对于直线等距抽样,圆形等距抽样的优点为( ) A. 不用对单元进行编号 B. 随机起点的选择范围变小
C. 保证每个单元被抽中的概率严格相等 D. 以上都正确
3. 对于系统抽样,总体均值 的方差估计形式为( ) A. V(y)?(N?1)S2?k(n?1)S2sywsyNN
2B. V(y)?S(N?1)[1?(n?1)p]sywsynN
C. V(y)?1?fS2[1?(n?1)p]sywstwsyn
D. 以上都正确
4 在系统抽样中,当总体单元的排列属于线形排列时有( ) A. 估计量的方差要小于简单随机抽样的方差 B. 估计量的方差要大于简单随机抽样的方差 C. 估计量的方差要小于分层抽样的方差 D. 估计量的方差要大于分层抽样的方差
5. 某班级共有35个学生,若样本量n=7,随机起点r=5,用Sethi对称系统抽样得到的样本序号为( )
A. 5,6,15,16,25,26,35 B. 5,31,10,26,15,21,20 C. 5,11,17,23,29,35,1 D. 5,10,15,20,25,30,35
6. Singn对称系统抽样法中,取值应为( ) A. [ i?2jk,N?i?2jk?1](j?0,1,2,...,n?1)2
n(j?0,1,2,...,?1)B. [ i?jk,N?i?jk?1]2 n(j?0,1,2,...,?1)C. [i ?2jk,2(j?1)k?i?1]2
n(j?0,1,2,...,?1)D. [ i?jk,(j?1)k?1]2
7. 下列关于不等概系统抽样的说法不正确的是( ) A. 具有系统抽样方便易行的特点
B. 具有不等概率抽样效率较高的优点 C. 能够同时适用于任意样本量的情形 D. 属于不放回不等概率抽样 (二)多项选择题
1. 下面关于系统抽样的说法,正确的有哪些?( ) A. 抽样之前需要将N个单元排序 B. 系统抽样的精度高于分层抽样 C. 系统抽样要求严格的抽样框 D. 不存在严格意义的无偏估计量 E. 系统抽样操作复杂繁琐
2. 系统抽样的方差可以有哪些表现形式?( )
2A. 用样本(群)内方差 S wsy 表示
B. 作为一种特殊的整群抽样,且群的规模大小都相等时的表示形式 C. 看作一种特殊的分层抽样时方差的表示形式 D. 看作特殊的不等概率抽样时方差的表示形式 E. 看作一种特殊的简单随机抽样时方差的形式
3. 系统抽样方差的近似估计可以考虑几种情形?( ) A. 随机排列情形 B. 趋势排列情形 C. 固定排列情形 D. 未知排列情形 E. 曲线排列情形
4. 对于线性趋势总体的系统抽样方差的改进方法有( ) A. 中心位置法
B. 对称(平衡)系统抽样法 C. Singh对称系统抽样 D. 首尾校正法 E. 加权调整法 (三)名词解释题 1.系统抽样:设总体中的N个单元按某种顺序(通常是按某种规律排列,但也可以是随机排列的)编号为1,2,…,N。如抽样程序是首先抽取一个或一组起始单元的编号,然后按某种确定的规则选取其它单元的编号,直到满n个为止,则这种抽样称为系统随机抽样,简称系统抽样。 2.等距抽样:设总体中的每个单元按某种顺序(通常是按某种规律排列,但也可以是随机排列的)编号为1,2,…,N。如抽样程序是先按简单随机抽样方式抽取一个起始单元的编号,然后按照规定的间隔k选取其它单元的编号,直到满n个为止,则这种抽样称为等距系统抽样,简称等距抽样。
3. 直线等距抽样:假设总体单元数为N,样本容量为n,N=nk,且总体中的N个单元已按某种确定顺序编号为1,2,…,N。如抽样程序是先从头k个单元编号中随机抽出一个单元编号,然后每隔k个单元编号抽出一个单元编号,直到抽出n个单元编号为止,则这种等距抽样称为直线等距抽样。 4. 圆形等距抽样:假设总体单元数为N,样本容量为n,,总体中的N个单元已按某种确定顺序编号为1,2,…,N,如将这些编号看成首尾相接的一个环,并从1到N中按简单随机抽样方式抽取一个单元编号作为随机起点r,然后,每隔k抽取一个单元编号,直到抽满n个单元为止,则这种等距抽样称为圆形等距抽样。 (四)计算题
1.(1)某班级共有50个学生,若样本量n=8,随机起点r=6,请用循环等距抽样方法列出样本单元序号。(2)某班级共有45个学生,若样本量n=7,随机起点r=4,请用Sethi对称系统抽样和Singn对称系统抽样列出样本序号。
2.某镇的360户为总体,编号从1~360,排列的顺序按户主的姓的字母排列,下列号码是户主为回族的住户号码:27,30~32,37~42,45,46,47,54,56,58,67,69,81,83,85,87,88,89~94,98,99,101,108~111,115,156,157,177,224,225,297,298~300,303~305,307~324,326~332,334,336~340,342,344。为了估计户主为回族的住户在全部住户中所占的比例,每8户抽1户,取得一个系统样本。试将这一系统抽样的精度与同样样本的简单随机抽样的精度加以比较。
3.下面是美国1900年以来的每隔5年的离婚率资料: (1)估计这期间的年平均离婚率,并估计其方差
(2)根据这一资料讨论用系统抽样好还是简单随机抽样好?
4.有三个紧邻的地区,居民分别是汉族、维吾尔族和哈萨克族,还有一本最近的居民册,册内的每一户的人是依下列顺序登记的:丈夫,妻子,孩子(按年龄排列),其他人。各户是沿街到按顺序排列的,每户平均有5口人。有两种抽样方案:(1)在户口册中每5人抽1人,可以得到一个系统样本;(2)按20%的比例抽取一个简单随机样本。现要从这两种样本中选择一种样本。在下述三种指标中,你认为哪一指标采用等距样本,可取得更好的精度: (a)孩子所占的比例;(b)男性所占的比例;(c)维族人所占的比例。
5.在一条街上13户的户口册中,将所有的居民列成下表(M表示为男性成人,F表示为女性成人,m表示男孩,f表示女孩):
现从每5个人中抽1人得到一个系统样本,又按20%的比例抽取一个简单随机样本,请比较这两种样本下列指标的方差: (1)男性所占比例; (2)孩子所占比例;
(3)具有某种职业的住户中人员的比例(1,2,3,12,13这几户是职业性住户)。 6.有假设总体N=15,其指标值排列的顺序为1,2,3,4,5,6,7,8,9,10,11,12,13,14,15。
(1)考虑n=3的直线系统抽样,计算系统抽样的实际方差,与样本量相同的简单随机抽样进行比较简要分析。
(2)若要求抽样间距k=4,样本均值是否为总体均值的无偏估计。它在什么情况下是有偏的,什么情况下是无偏的?
7.检查某书籍的错字,每5页检查一页上的错字数,系统抽取30页,样品的检查结果如下:
(1)用简单随机抽样的公式计算均值的抽样方差; (2)用合并层的方法计算均值的抽样方差; (3)用连续差的方法计算均值的抽样方差。 (五)简答题
1.系统抽样设计的原理是什么?与整群抽样、分层抽样的关系如何? 2.系统抽样方差的近似估计方法有哪些?分别适应何种情形? 3.对线性趋势总体的系统抽样的改进方法有哪些? (六)设计题
某公司下有10个分公司,N=10,每个分公司的人数 见下表。现在欲考察分公司的日常办公费用状况,采用 系统抽样方法抽取n=3个分公司,试回答如何进行抽取?按照你的方法,入样的分公司编号为多少?
习题九
一、 单选题
?的均值可以表示为( )1. 两阶(段)抽样中,对于一个估计量?。
?)?E[E(??)] A.E(?12?)?E[E(??)] B.E(?211?)?E(??)] [E1(?22?)?1[E(??)?E(??)] D. E(?122?)?C. E(?
2. 关于多阶段抽样的阶段数,下列说法最恰当的是( )。
A.越多越好 B.越少越好
C.权衡各种因素决定 D.根据主观经验判断
3. 在初级单元大小相等的分层二阶段抽样中,关于自加权的说法错误的是()。 A.自加权在这里是指在每层抽样中,每个次级单元被抽中的概率皆相等或是等价的 B.每一层总的抽样比fh为常数 C.自加权估计量一般计算比较简单
nhNh?f0(h?1,2,?,L) D.分层二阶段抽样自加权的条件为:
mhMh4. 在多阶段抽样中,当初级单元大小相等时,第一阶段抽样通常采用()。
A.系统抽样 B.简单随机抽样 C.不等概率抽样 D.非概率抽样
5.初级单元大小不等的多阶段抽样中,无偏估计量成为自加权的条件是()。 A.第一阶段每个单元被抽中的概率相等 B.第二阶段每个单元被抽中的概率相等 C.最终阶段每个单元被抽中的概率相等 D.最终阶段每个单元被抽中的概率不等 6.在初级单元大小相等的二阶段抽样中,当抽取次级单元的数量相等时,二阶段抽样的方差与整群抽样方差以及分层抽样方差之间的关系通常为()。 A.二阶段抽样的方差<整群抽样的方差<分层抽样的方差 B. 二阶段抽样的方差>整群抽样的方差>分层抽样的方差 C. 分层抽样的方差<二阶段抽样的方差<整群抽样的方差
D. 分层抽样的方差>二阶段抽样的方差>整群抽样的方差 二、多选题
1.二阶段抽样中,初级单元大小不等时,一般可采用下面方法()。
A.通过分层,将大小近似的初级单元分到一层,然后采用分层二阶段抽样 B.可按初级单元大小相等的方法处理
C.考虑用不等概率的抽样方法抽取初级单元
D.采用简单随机抽样抽取初级单元但改变估计量的形式 E.近似看成初级单元大小相等
2.确定样本量时需要考虑的因素有()。 A.调查的费用 B.调查要求的精度 C.调查的时间 D.调查的技术 E.调查的目的
3.初级单元大小不等时,下面关于二阶段抽样总体总和Y的估计的说法正确的有()。 A.可以采用放回的抽样方式,按不等概率抽取初级单元,此时可得总体总和Y 的估计量
?1nMy1nY?YHH??i??ii ni?1zini?1ziB.采用不放回抽样方式,按简单随机抽样抽取初级单元,此时有
??NYunNMiyi??ni?1n?Y?
ii?1nC. 采用不放回抽样方式,按简单随机抽样抽取初级单元,此时
??MYR0?Y?i?1ni?1ni
i?Mnn?MiyiY?D. 采用不放回抽样方式,按不等概率抽样,此时有YHT????i
i?1?ii?1?iE.可以采用放回的抽样方式,按简单随机抽样抽取初级单元,此时有
??NYn?Mi?1niyi
3. 在二阶段抽样中,对比例的估计通常采用()。 A.两阶段均采用等概率抽样,用比率估计的方法 B.第一阶段采用PPS抽样,第二阶段采用等概抽样 C.两阶段均采用简单随机抽样,用简单估计的方法 D.两阶段均采用PPS抽样
E.第一阶段采用等概抽样,第二阶段采用等概抽样 5.多阶段抽样相对于简单随机抽样的优点有()。 A.实施方便
B.每个基本单元的调查费用比较低 C.能够充分发挥抽样的效率 D.节省人力、物力 E.可以分级准备抽样框
6.二阶段抽样中,关于总体比例P的表达可以为()
1A. P?Y B. P?N1E. P?MN1PP? C. ?iMNi?1n1YP? D. ?iMi?1n?A
ii?1n?A
ii?1n三、计算题
1. 对某商店上月销售额根据发票进行抽样估计,若该商店上月共用了18本发票,现用随机方法抽取了4本发票,每本发票有200张,从抽中的发票本中,每本分别随机抽取了40张发票,经过整理取得数据如下:
发票调查情况
第i本样本发票 1 2 3 4 每本发票中40张发票金额441.95 368.92 317.24 357.4 ?yij j?1402y?ij j?1407180 4026.59 3260.77 4665.84 要求估计该商品上月销售额及估计的标准差。
2. 欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水账,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水账。调查的结果如下表:
对5家企业的调查结果
样本企业 1 2 3 4 5 第一日 57 38 51 48 62 第二日 59 41 60 53 55 第三日 64 50 63 49 54 要求根据这些数据推算100家企业改指标的总量,并给出估计的95%置信区间。
3. 某部委对所属企事业单位就一项改革方案进行抽样调查,采用二阶抽样。先在全部
N?1250个单位(平均每个单位职工人数M=250)中按简单随机抽样抽取n=350个单位,
然后对抽中的每个单位再按简单随机抽样抽取m=8个职工进行调查。样本单位中赞成此项改革方案人数为k的单位频数nk(k=0,1,…,8),及赞成比例pk列在下表中,试估计该部委全体职工赞成该项方案的比例p,给出估计两的方差估计。
某部委350个单位对一项改革方案的调查结果
k 0 3 0 1 4 2 15 3 34 0.375 4 64 0.5 5 131 0.625 6 67 0.75 7 24 0.875 8 8 1 nk pk 0.125 0.25 4. 欲调查某个新小区居民户家庭装潢聘请专业装潢公司的比例。我们在15个单元中随机抽取了5个的单元,每个单元有12户,在这5个单元中分别随机抽取了4户居民并进行了调查,对这20户的调查结果如下表:
被抽中的20户调查结果
样本单元 1 2 3 4 5 第一户 是 否 否 否 是 第二户 是 是 否 否 否 第三户 否 否 否 否 否 第四户 否 否 否 否 否 要求根据这些数据推算居民家庭装潢聘请专业装潢公司的比例。
5. 某县农村共有14个乡509个村,在实现小康的进程中欲计算该县农村的恩格尔系数,即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用了二阶抽样,第一阶段先在14个乡中,按村的数目多少进行pps抽样,共抽了5个乡,第二阶段在抽样中的乡中随机的抽取6个村做调查,然后对抽中的村做全面调查,取得数据如下:
被抽中样本食品支出状况 样本村序号 i 1 2 3 4 5 村数 样本村数 样本村平均食品支出 (万元) 48 175 108 90 100 Mi 19 41 72 54 36 mi 6 6 6 6 6 要求估计全县的食品支出总金额及估计的标准误差。
6. 某服装联合企业,下面有90个缝纫厂,共有缝纫机4500台,据反映由于机器经常出现故障影响生产,管理部门拟用抽样方法调查上月每台机器因故障而停工的平均小时数,现采用二阶段抽样,第一阶段按简单随机抽样抽取10个工厂,第二阶段在抽中的工厂中抽20%的机器做样本,根据样本机器得如下数据:
样本机器调查结果
样本工厂 i 1 2 3 4 5 机器总数 样本数 Mi 50 65 45 48 52 mi 10 13 9 10 10 yi 5.4 4 5.67 4.8 4.3 2s2i 11.38 1067 16.75 13.29 11.12 6 7 8 9 10 58 42 66 40 56 12 8 13 8 11 3.83 5 3.85 4.88 5 14.88 5.14 4.31 6.13 11.8 要求估计上月每台机器平均的停工时间和由于停工引起的总时间损失,并计算相对标准差。
7. 某小区拥有10座高层建筑,每座高层建筑拥有的楼层数如下表所示:
每座高层建筑拥有的楼层数 高层建筑 楼层 A 12 B 12 C 16 D 15 E 10 F 16 G 10 H 18 I 16 J 20 用二阶段抽样方法抽出10个楼层进行调查,第一阶段抽样为放回的、按于每座建筑拥有的楼层数成比例的不等概率抽样抽取5座建筑,第二阶段按简单随机抽样对每座建筑抽取两个楼层。对10个楼层居民人数的调查结果如下,请对小区总居民数进行估计,并给出估计的精度。(95%的置信度)
被调查小区总居民数 一阶样本序号 居民数 1 18,12 2 15,18 3 19,13 4 16,10 5 16,11 8. 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。全校共有女生宿舍200间,每间住6位同学。学生会的同学运用二阶段抽样设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取了3位同学分别进行单独访问,两个阶段的抽样都是简单随机抽样,调查的结果如下:
调查结果 样本宿舍 1 2 3 4 5 拍照人数 2 0 1 2 1 样本宿舍 6 7 8 9 10 拍照人数 1 0 1 1 0 试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。 9. 上题中,学生会对女生勤工俭学月收入的一项调查中,根据以往同类问题的调查,宿舍的标准差为s1=326元,宿舍内同学之间的标准差为s2=188元。以一位同学进行调查来计算,调查每个宿舍的时间c1为10分钟,调查每一学生的时间c2为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间是c0为4小时,如果总的时间控制在8个小时内,则最优的样本宿舍和样本学生数为多少?
10. 苗圃职工用二阶抽样方法估计树苗的平均高度,该苗圃共有N=50块地,先从中抽取10块地,再从每块抽中的地块中抽10%的树苗,对抽中的苗木测量其高度取得资料如下: 地块(i) 秧苗数(Mi) 抽样数(mi) 苗木高度yij 1 2 3 4 5 6 7 8 9 10 52 56 60 46 49 51 50 61 60 45 5 6 6 5 5 5 5 6 6 6 12,11,12,10,13 10,9,7,9,8,10 6,5,7,5,6,4 7,8,7,7,6 10,11,13,12,12 14,15,13,12,13 6,7,6,8,7, 9,10,8,9,9,10 7,10,8,9,9,10 12,11,12,13,12,,12 已知共有M0=2600株苗木
?(1)Nn?(1)若两阶抽样都是简单随机的,调查结果用加权平均数Y?Miyi来估计总M0ni?1体均值,求估计值Y?(1)
,并计算v(Y?(1));
??(2)1n??yi,求估计值并计算v(Y(2)) (2) 抽样方法同(1),但估计量不加权,即用Yni?1?(3)(3) 抽样方法不变,使用比估计,即Y??My?Miii,求估计值及其标准误差v(Y?(3))
(4) 讨论上述三种方法的适用条件
11. 省卫生部门对32个城市的饮食业采用二阶抽样方法检查卫生合格情况,第一阶抽样从32个城市中简单随机抽取4个城市,第二阶抽样在每个抽中的城市用同样方法抽取一半饮食店进行检查,检查结果如下: 样本城市 1 2 3 4 饮食店总数 25 10 18 16 样本店数 13 5 9 8 检查卫生不合格数 4 1 4 2 要求估计这32个城市不合卫生要求的饮食店所占的比例及95%的置信区间。
12. 某城市共有六家医院,欲估计住院病人中长期住院病人所占的比例。现从这六家医院根据病床的多少采用放回按规模大小成比例的抽样方法抽取3个医院,再从抽中的医院中用简单随机抽样抽取10%的病人,调查长期住院病人(住院一个月以上)所占的比例.其数据如下:
样本医院 1 2 3 总住院病人数 430 280 190 抽选病人数 43 28 19 住院在一个月以上的病人数 5 4 3 要求估计住院在一个月以上病人占总住院病人的比例及其95%的置信区间.
13. 为估计一本英语字典的总字条效.先从26个字母中用放回的PPS抽样方法抽出10个字母,在抽中的字母中又不放回地抽取2页进行计数,其样本数据如下:
样本字母 S C N S F J U P A D 总页数 131 97 21 131 43 7 18 85 49 54 样本页上数字 1 34 27 44 24 25 42 24 53 47 38 2 27 26 38 29 32 48 21 24 55 57 用汉森一赫维茨估计量估计该字典的总字数和它的相对标准差,并估计它的设计效应deff。
14. 估计一个地区的每一住户平均消费支出,拟采用二阶抽样设计,第一阶抽村,第二阶抽户,都采用简单随机抽样。为了设计这一调查先作了一试调查获得以下信息:
22(a)Y?50,(b)村与村之间的方差S1?85.5,(c)村内户与户之间的方差S2?36.5,(d)调
查每个村的费用c1?9元,(e)调查每一住户的费用c2?1元,(f)调查的组成管理费用为
c0?1000元。若总的调查费用CT=10000元。请计算最忧的样本村数和每村的样本住户数。
15. 某幼儿园共有三个班,其人数分别为 班级 人数 A 20 B 15 C 25 欲估计每个小孩每天平均吃糖果数。现采用PPS抽样方法抽选两个班,然后在抽中的班中每班抽选5个孩。.假设抽中的班级为B和C班.在B班中用简单随机抽样抽5个小孩,他们平均吃糖果数为3,5,4,5,3;在C班中抽选的5个孩子其吃糖果数为4,6,4,4,3。
要求:
(1) 估计全幼儿园平均每人每天吃糖果数; (2) 计算抽样标准误.
16. 假设总体初级单元的大小均为M。为了估计总体均值Y(按次级单元),采用如下的二阶抽样法,先随机地抽取n个初级单元,然后从每个初级单元中抽取一个次级单元。记 其中
NM11N222S?(Y?Y)S?(Y?Y) ???i2ijiN(M?1)i?1j?1N?1i?12S2S?S?
M2U21212试证:若Su?0,则上述简单随机样本比直接从全体次级单元中抽取的样本量为n的简单
随机样本更有效,如果n/N忽略不计,则两组样本同样有效。
17. 对于各级单元大小相等情形的三阶抽样,若每阶抽样都是简单随机的,根据9.5.1中的记号,证明
E(s1)?S1?221?f221?f32S2?S3 mmk2 E(s2)?S2?21?f32S3 k22 E(s3)?S3
四、简答题
1. 什么是多阶段抽样?多阶段抽样有哪些优点?
2. 能否举例说明多阶段抽样在实际生活中有哪些应用? 3. 多阶抽样与单阶抽样的关系;
4.二阶抽样与整群抽样和分层抽样的关系。 五、设计题
某学校欲调查学生每月的零用钱数量。假设该学校共有18个班级,每个班级都有60个学生。请你设计一个调查方案,并说明你是如何确定样本量的。
习题十
二重抽样
1. 某县欲调查某种作物的播种面积,全县共有2000个村,拟采用分层抽样以提高抽样效率,但由于缺乏详细的分层资料,故采用二重抽样方法。先抽取500个村作为第一重样本,根据村的大小(现有户数)进行分层,然后又在各层中等比例地抽取1/5村作为第二重样本,分别调查了该种作物的播种面积,其有关数据如下: 层 50户以下村 50-99户 100-199户 200-299户 300户以上 第一重抽样 85 125 140 110 40 第二重抽样 17 25 28 22 8 ?yjhj ?yj2hj 490 1806 4423 5607 4101 16574 135164 736075 1446987 2205691 要求:
(1) 估计全县该种作物的种植面积; (2)计算播种面积估计的标准差。
2. 现有总调查费用为3000元,拟用来作一个估计比例问题的调查。假设每一个抽样单元的调查费用为10元,现有两种方案可供选择,一是采用二重分层抽样,第一重样本用来对单元进行分层,每个抽样单元的分层费用是0.25元,已经总体中两层的权重相等。如果第一层中的起初比例是0.2,第二层中的真实比较为0.8,要求确定二重抽样中最优的n和n?,以及由此所得到V(pstD),另一种方案是采用不分层的简单随机抽样。要求将二重分层抽样的精度与简单抽样进行比较。抽样效率是否提?
(假定抽样比n?N和nhNh均可忽略不计)。
3. 按照上一题中的Wh,Ph,求调查一个单元费用c2和每分层一个单元费用c1之比达到多少时,二重抽样的费用效率高于简单随机抽样?
4. 某地区欲估计牛的年末头数,以上一次的普查数作为辅助变量。但由于行政区划的变动,上次该地区普查的总头数已不能利用,故采取二重抽样的方法,先在全地区1238个村抽500个村,得到上期普查的平均每村有牛的头数为602头,然后又抽取第二重样本为24个村,分别取得了上期普查头数和当年的年末头数,起资料如下:
样本序列 普查头数 年末头数 样本序号 普查头数 年末头数 1 2 3 4 5 6 7 8 9 10 11 12 623 690 534 293 69 842 475 371 161 298 2045 1069 654 696 530 315 78 640 692 292 210 555 2110 592 13 14 15 16 17 18 19 20 21 22 23 24 706 1795 1406 118 330 218 160 210 262 204 185 574 707 1890 1123 115 375 212 147 297 401 252 199 564 要求:
用二重比估计法估计该地区年末牛的总头数及其估计的标准差。
5. 试用上题的资料,采用二重回归估计法估计该地区年末牛的总头数及其估计饿标准差。并比较回归估计和比估计的效率,作简要分析。
6. 在二重回归抽样中,如果?=0.8,假如由于第一重样本的均值的抽样误差使精确度的损失必须小于10%,则相对于n来说,n?必须多大?
7. 在应用二重回归抽样时,设第二重抽样的样本量为87,第一重抽样的样本量为300。下列计算应用于第二重样本。
?(y?(xi?y)2?17283 ?x)2?3248
?(yi?y)(xi?x)2?5114
i请计算Y的二重回归估计量的标准差。
8. 对某块林地的木材蓄积量采用二重抽样方法,第一重抽样的抽样比为10%,样本量为n1,用目测估计蓄积量为辅助变x。在第一重样本中再抽取一个子样本,样本量为n2,对该样本用目测法估计,并同时进行实测(y),对整个林地木材蓄积量采用回归估计,若给定费用为10000元,其费用函数为CT?1000?5n1?40n2,y的变异系数为1,y和x之间的相关关系伪0.7,试求最优的n1和n2,并计算估计的相对标准差。
9. 总体分为L层,第h层的大小为Nh(
?Nhh?N),对总体采用简单随机抽样抽取
?为样本单元高于第h层的单元数且nh>0,证明wh??nh?n?一个样本量为n?的样本,记Nh是层权Wh?NhN的无偏估计
10. 设总体包含大小相等的L个层,对它采用分层二重抽样,假定N很大,且第二重
抽样的抽样比对各层皆为常数?,试证分层二重抽样估计量ystD的方差V(ystD)满足: nV(ystD)?Sh2n1L?(Yh?Y)2 ?n?Ln?1其中 Sh=
212Sh ?Lh11. 二重抽样的基本方法;
12. 二重抽样的主要作用有哪些?
13. 二重抽样与二阶抽样的区别何在?