《抽样技术》期末复习
1、设计效应(Deff)
答:设计效应(deff)是由基什提出的,用来对不同抽样方法进行比较,其定义为:deff?V(y),其中Vsrs(y)为不放回简单随机抽样简单估计量的方差;V(y)为某个抽
Vsrs(y)样设计在同样样本量条件下估计量的方差。设计效应的定义就是将某个抽样设计的估计量的方差与同样样本量条件下的不放回简单随机抽样简单估计量的方差进行比较。如果deff < 1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff > 1,则所考虑的抽样设计比比简单随机抽样的效率低。
deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n?比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为:
n = n? ? deff。
2、概率抽样
答:概率抽样也称随机抽样。概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。
具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。
因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。 3、非抽样误差
答:非抽样误差是指除了抽样误差以外的,由于各种原因引起的误差。同抽样误差相比,非抽样误差有如下特点:(1)非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小。(2)在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏。(3)有些非抽样误差难以识别和测定。(4)产生非抽样误差的渠道众多,成因复杂,对调查数据质量和估计结果的负面影响非常大。非抽样误差按其来源、性质的不同,可以分为抽样框误差、无回答误差和计量误差等三类。
4、不等概率抽样
答:不等概率抽样在抽样前赋予总体每个单元一个入样概率,当然这个入样概率是不相同的,否则抽样就成为等概率的抽样。不等概抽样的优点是大大提高估计精度,减少抽样误差,但使用它也有条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元人样的概率,这在抽样及推算时都是必须的。不等概率抽样可以按样本单元是否放回分为放回不等概抽样和不放回不等概抽样。
5、最优分配
答:在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。
6、比率估计
答:比率估计(radio estimator)又称比估计,在进行抽样调查时,目标量本身就是总体比率,这样对目标量的估计就叫做比率估计,也可用来提高估计量的精度,它是有偏的。
7、试述分别比估计和联合比估计的比较
1
答:如果每一层都满足比率估计量有效的条件,则除非Rh?R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率佑计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。
8、试述设计效应在抽样设计中的应用。
答:设计效应(design effect,简称deff)是指在相同样本量的条件下,采用特定的抽样设计(一般为较复杂的抽样设计)与不放回简单随机抽样简单估计量的方差之比,如果deff<1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff>1,则所考虑的抽样设计比简单随机抽样的效率低。设计效应是抽样调查中的一个重要参数,它可以表明特定抽样设计的估计效率;如果有设计效应的经验数据,也可以用于确定不同调查方式所需要的样本量,从而大大节约计算样本量的时间,因此倍受抽样调查设计人员的关注。
9、有人认为“总体愈大,应抽的样本量也愈大”,请对此加以评价。
答:这种说法是不正确的。因为,虽然在其他条件相同的条件下,样本量越大,抽样误差越小,但是从抽样误差与样本量的关系图可以看出,抽样误差在开始时随着样本量的增大而显著减小,但经过一定阶段后便趋于稳定。也就是说,经过一定阶段后,用增大样本量的方式减少抽样误差一般是不合算的。当样本增大到一定能够程度,无论总体再大,抽样的精度都差不多。所以,这种说法是不正确的。
10、(简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,
2该区共有N=1000户,调查了n=100户,得y=12.5吨,s=1252,有40户用水超过了规定的标准。
要求计算: ○1该住宅区总的用水量及95%的置信区间; ○2若要求估计的相对误差不超过10%,应抽多少户作为样本? ○3以95%的可靠性估计超过用水标准的户数;
n100?0.1,y=12.5,s2?1252 解:已知N = 1000,n = 100,f??N10001估计该住宅区总的用水量Y为: ○
?Y=Ny=1000?12.5=12500
估计该住宅区总的用水量Y的方差和标准差为:
1-f21?0.12?v(Y)=Nv(y)=N2s?10002??1252=11268000n100
???11268000?3356.7842s(Y)=v(Y) 因此,在95%的置信度下,该住宅总的用水量的置信区间估计为: ??ts(Y)=12500? Y?1.96?3356.7842?12500?6579
即,我们可以以95%的把握认为该住宅总的用水量在 5921吨~19079吨之间。
○2根据题意,要求估计的相对误差不超过10%,即r≤0.1,假定置信度为95%
t2s21.962?1252 根据公式:n0?22??3078
ry0.12?12.52n 由于0?3.078?0.05,所以需要对n0进行修正:
N 2
n03078??755 n01+3.0781?N 若要求估计的相对误差不超过10%,应抽不少于755户作为样本。 ○3以95%的可靠性估计超过用水标准的户数;
令超过用水标准的户数为A,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例P为:
a40p = ??40%n100
估计超过用水标准的比例P的方差和标准差为:
1?f1?0.1v(p)?pq??40%?60%?0.002182n?1100?1 s(p)?v(p)?0.002182?4.67%
在95%的可靠性下,超过用水标准的比例P的估计区间为: p?ts(p)?40%?1.96?4.67%
因此,我们有95%的把握认为,超过用水标准的比例P在30.85I.15%之间,超过用水标准的户数的点估计为:1000?40%?400户,超过用水标准的户数在1000?30.85%户~1000?49.15%户之间,即309户~492户之间。
12、(内曼分配和按比例分配的均值和比例估计)有下列数据 n = 层 1 2 3 设n?1000
○1采用按比例分层抽样的方法估计Y和P并计算其标准误; ○2采用奈曼分配的方法估计Y和P并计算标准误; 解:○1根据题中已知条件,采用按比例分层抽样的方法估计Y为: yst??Whyh?0.35?3.1?0.55?3.9?0.1?7.8?4.01
h?1LWh 0.35 0.55 0.1 yh 3.1 3.9 7.8 sh 2 3.3 11.3 ph 0.54 0.39 0.24 估计Y的方差和标准误差为:
1?fL12v(yst)?WS?(0.35?22?0.55?3.32?0.1?11.32)?0.0201585?hhnh?11000
s(yst)?v(yst)?0.0201585?0.141981 估计P及其方差和标准误差为:
pprop??Whph?0.35?0.54?0.55?0.39?0.1?0.24?0.4275h?1L1?fL1v(pprop)?Wpq?(0.35?0.54?0.46?0.55?0.39?0.61?0.1?0.24?0.76)?0.000218?hhhnh?11000s(pprop)?v(pprop)?0.000218?0.014765
3
○2采用Neyman分配的方法估计Y和P的方法和与○1是一样的,即
yst??Whyh?0.35?3.1?0.55?3.9?0.1?7.8?4.01
h?1Lpprop??Whph?0.35?0.54?0.55?0.39?0.1?0.24?0.4275h?1L
但是采用Neyman分配估计Y和P的方差的方法不同,分别为: 1L1L122v(yst)?(?WhSh)??WhSh?(0.35?2?0.55?3.3?0.1?11.3)2?0.013286nh?1Nh?11000s(yst)?v(yst)?0.013286?0.1152651L1v(pprop)?(?Whphqh)2?(0.35?0.54?0.46?0.55?0.39?0.61?0.1?0.24?0.76)?0.000236nh?11000s(pprop)?v(pprop)?0.000236?0.015362
13、(两阶段抽样)某市为了了解职工收入情况,从该市的630个企业中随机抽取了5
个企业,在中选的企业中对职工在进行随机抽样,有关数据如下: 企业2yi(元) Mi mi s2i 号 1 520 10 328 400.056 2 108 10 400 301.134 3 1400 20 310 1303.158 4 1200 20 370 1205.786 5 9000 100 420 4200.000 2Mmys其中,i为企业职工数,i为样本量;i为样本均值,2i为样本方差。 试估计该市职工平均收入及标准差。
2解:已知:N = 630,n = 5,Mi,mi,yi,s2i 估计该市职工的平均收入为:
y=?Myi=1nnii??Mi=1520?328+108?400?1400?310?1200?370?9000?420?398
520?108?1400?1200?9000i估计该市职工平均收入的方差及标准差为:
1-f11n1n(1-f2i)22v(y) = (yi?y)??s2i?nn?1i?1ni?1mi51 ?630[(328?398)2?(400?398)2?(310?398)2?(370?398)2?(420?398)2]?55?1101020201001?1?1?1?1?1 ?[520?400.056?108?301.134?1400?1303.158?1200?1205.786?9000?4200]510102020100 ?667.460317?45.321254 = 713.7815711-s(y)=v(y)?713.781571?26.71669
4