抽样调查 作业二 R语言 下载本文

抽样调查

学号:2013104874 姓名:孙影莉班级:统计学131 一、作业要求:

1、利用R软件进行相关运算,给出运算结果; 2、逐一给出每题的R代码及其相应的运行结果;

3、作业以word文档提交,命名格式为“学号姓名作业二”。

二、作业题目:

P104.3.3题:某居委会辖有三个居民新村,居委会欲对居民购买彩票的情况进行调查。调查者考虑以新村分层,在每个新村中随机抽取了10个居民户并调查每户最近一个月购买彩票所花费的金额(元),结果列于下表:

新村居民用户123456789101256101020201001030202420203510500405010202031680200303050400300 问题:

(1)试估计该小区居民户购买彩票的平均支出,并给估计的标准差。

(2)当置信度为95%,要求极限相对误差不超过10%时,按比例分配和按内曼分配时样本量及各层的样本量分别为多少?

解答:

(1)首先计算出每层的简单估计量: ybar1、ybar2、ybar3=分别为其中,N1、N2、N3分别为:

然后求出每层的层权w1、w2、w3分别为:

利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量ybar= 购买彩票的每层的平均支出样本方差sh1^2、sh2^2、sh3^2为:

然后fh1 、fh2、 fh3分别得:

(Nh*yh)1、 (Nh*yh) 2、(Nh*yh) 分别是:

, ,N=

总和为:

根据以上数据整理成表格为:

h123总计nh10101030Nh256420168844fh0.03910.02380.0595wh0.30330.49760.19911

yh11.225.520Nhyh2867.210710336016937.2sh294.4302.5355.6 然后求得方差的估计值为vybar= 则估计的标准差为sybar=

(2)a、比例估计: 总体n=

,n1、 n2、n3分别为:

n、n1、 n2、n3分别约等于: 185、56、92、37

b、内曼估计:

总体n= ,n1、 n2、n3分别为:

n、n1、 n2、n3分别约等于: 175、33、98、42

代码如下:

setwd('C:\\\\Users\\\%user\\\\Desktop\\\\新建文件夹') dat<- read.csv('syl3.3.csv',header=F) View(dat) alpha <- 0.05 nh<- 10 Nh<- dat[,2] N<-sum(Nh) Wh<-Nh/N

w<-sum(Wh)#检验Wh是否正确 fh<-nh/Nh

yh<- 1:nrow(dat) # rep(0,nrow(dat)) sh2<-1:nrow(dat)

yh<- rowSums(dat[,3:12])/nh Yh<- Nh*yh

Y<-crossprod(Nh,yh) ybar<-sum(Wh*yh)

var_ybar<-sum(Wh^2*(1-fh)/nh*sh2) sybar<-sqrt(var_ybar) for(i in 1:nrow(dat))

{

yh[i]<- mean(as.numeric(dat[i,3:12])) sh2[i]<- sd(dat[i,3:12])^2 }

# 比例分配 r<-0.1

a<-sum(Wh*sh2)

b<-(0.1*ybar/qnorm(1-alpha/2))^2 n<-a/(b+a/N) #总数

n1<- n*Wh #各分层样本数 # 内曼估计

a1 <-sum(Wh*sqrt(sh2))

n2 <-a1^2/(b+a/N) #总数

n22 <-n2*Wh*sqrt(sh2)/a1 #各分层样本数

P104.3.4题:随着经济发展,某市民正在悄悄的改变他们的过年习惯,虽然仍有大多数选择除夕夜在家吃年夜饭、看电视节目,但也有一些家庭到饭店吃年夜饭或逛夜市,或利用春节假期到处旅游。为研究这种现象,某研究机构以市中心165万居民户作为研究对象,将居民户按6个行政区分层,在每个行政区随机抽取30户居民户进行了调查(各层抽样比可以忽略),每个行政区的情况以及在家(或亲戚家)吃年夜饭、看电视节目的居民数见下表:

行政区h123456居民户比例Wh在家居民户nk0.18270.21280.14270.09260.16280.2229 问题:

(1) 试估计该市区居民在家吃年夜饭的比例,并给出估计的标准差。

(2) 当置信度为95%,要求极限绝对误差不超过1%时,按比例分配和内曼分配时总样本

量及各层的样本量分别为多少?

解答:

(1):首先计算得到每层在家中吃年夜饭的样本比例分别为:

那么根据每一层的层权,计算得到该市民在家吃年夜饭的样本比例为:Pst=每一层在家吃年夜饭的样本比例的方差为: V(Pn)=

样本比例方差的估计值为:V(Pst)=

该估计值的标准差为:s(Pst)=

所以估计量的标准差为1.99%,比例为9.24%

(2)、a、比例分配的条件下:n=

所以n1、n2、n3、n4、n5、n6分别为:

约等于2659

n1= 479、n2=559、n=373、n4=240、n5=426、n6=586 由于n1+n2+n3+n4+n5+n6=n所以n=2663. b、内曼分配

n2=约等于2561

所以n1、n2、n3、n4、n5、n6分别为:

n1= 536、n2=520、n=417、n4=304、n5=396、n6=392 由于n1+n2+n3+n4+n5+n6=n所以n=2565.

程序代码如下:

setwd('C:\\\\Users\\\%user\\\\Desktop\\\\新建文件夹') dat<- read.csv('syl3.4.csv',header=F) View(dat)

N<-165*10^4 #样本总量 n1<-30 #样本量 wh<-dat[,2] nh<-dat[,3]

p<-nh/n1 #每层样本比例 pst<-sum(wh*p)#样本比例