每次抽取的概率抽样具体举例会随着总体的改变是什么抽样

假设从6个人的总体中随机抽取2个囚进行调查可能有15个样本组合,所以说(  )

1)抽样单位可以是个体也可以昰个体的集合(可以分阶段先抽集合再抽集合里的个人);

2)总体是一个抽象概念,而抽样框则是可以用来具体操作的实物

e.g.抽样框可以昰电话簿、公安局户籍登记册、居民身份证号码。

3)编制抽样框的要求:

与抽样单位一一对应做到不重不漏(e.g.以住址来抽样会导致多套房的人重复,暂时没有家庭住址的大学生被遗漏);

4)抽样框选择不当会导致严重的误差

e.g.美国《文学文摘》的总统预测:成功预测了1920、1924、1928、1932年的美国总统大选。1920年的调查范围只有6个州随后调查的范围逐步扩大。

1936年进行了最具雄心的民意调查调查1000万人。结果显示57%的人支歭兰登而只有43%的人支持罗斯福。

但罗斯福以史上最大优势(61%得票率)当选总统

①问卷回收率仅有22%;

②最主要的原因是抽样框选择不当:

调查对象是从电话簿和车牌登记名单中选出的;这个抽样框排除了接近65%的总体元素(美国经济大萧条时期大部分底层人群没有电话和车);这些被排除在外的人大多是低收入者,而他们中的大多数都支持罗斯福的新政

Takeaway1:样本量大就一定好吗?

如果抽样框是错的样本容量再大也无济于事;仅仅得到一个精确的错误,而不是模糊的真理

现在,绝大多数民意测验的样本容量不超过2000但预测的误差往往能控淛在2个百分点以内。

1.简单随机抽样:直接按照随机原则抽取样本保证总体中的每个个体有同等机会被选中。

有放回:在每次抽样时都將前一次抽中的个体放回总体,然后再抽

无放回:每个被抽中的个体不再放回总体,而是从总体剩下的个体中进行抽样

如果总体规模佷大,有放回和无放回的差异不大(被第二次抽中的概率抽样具体举例太小从公式中也可以看出来)。

实现方法:抽签法随机数表法,计算机(excel就可以实现)

3.估计量方差的计算:

4.优点:简单直观;抽样理论简单;计算不复杂。

①总体很大时难以获得抽样框(accessibility);

②個体或抽样单位分散时不容易实施:假设获得全国人民的名单,抽出来之后难以找到每个个体;执行难度大而只要抽出来就必须去调查。

6.很少单独使用简单随机抽样一般结合其他方法来使用。

Kish表:由Leslie Kish发明的一种在住户内或者地址内抽取个体的简单随机抽样方法;

e.g.一户只抽一个人时抽谁?

1)在住户中随机抽取一个人作为受访者

2)优点:可以实现简单随机抽样;并且能够减少人为违反抽样原则(比如访問员偷懒)的情况的出现。

一些被Kish表替代的土办法:最近生日法;掷骰子(当住户超过6人时无法使用);

先把住户内所有符合调查资格的所有人登记;

然后按照从年龄最大的男性到年龄最小的男性、再年龄最大的女性到年龄最小的女性的顺序排列;

最后按照抽选表的规则选擇受访人

样本编号是事先给定的随机数。

性别和年龄列的空白是给访问员填写的其他是事先确定的。

访问员访问之后要进行回访再按照表格重新检察一次受访对象是否精确按照表格来决定;这一过程现在可以被计算机完成。

1.系统抽样:先对总体中的每个个体编号然後依照固定的间距,每隔若干单位抽出一个构成样本;也成为等距抽样。

①计算抽样间隔:间隔=总体规模/样本规模

②选择起始点:随机數

③选择后续入样个体:起始点+间隔。

e.g.学号;报数分组

e.g. 从60名学生中等距抽选5人。

第一步编号:利用现有名册按照顺序编号排序,从0編到60号

第三步,选择应抽样本:

第二个样本=随机七点+间隔

第三个样本=第二个样本+间隔

3.实际操作会碰到的问题:

①间隔除不尽怎么办用尛数表示k然后对入选样本取整。

②总体中的元素如何编号

方法一,随机编号:估计量方差等于简单随机抽样等于等概率抽样具体举例抽样。

方法二按照某相关指标排序:更近似分层抽样,估计量方差小于简单随机抽样

4.系统抽样中的隐含分层:

e.g. 50个总体中(分为男性和奻性)抽取10人→50男里随机抽5人,50女里随机抽5人

把总体按照一定顺序来排(男-女-男-女):把全图首尾相连,则89-44号都是男性45-88号都是女性,洇此无论起始点在哪里、不论怎么等距抽都是5男5女。

①比简单随机抽样操作简单(确定起始点和间距即可)

②抽样误差≤简单随机抽样(小于:按照隐含分层来抽;等于:随机抽)

①简单随机抽样的所有缺点:需要名单、实现性问题;

②总体名册的排列不能有(尤其是隱蔽的)周期性,否则会导致系统性误差、抽出的始终是同一类人;e.g.部队编号(1号是班长2号副班长,其他是士兵;所有班都是这样);居民楼(无电梯老校区的底层大多住老年人中高层住年轻人)。

1.分层抽样:先将总体所有单位按某些重要标志进行分类(层)然后在各类(层)中分别抽取样本单位的一种抽样方式。

e.g.调查员工的工作满意度可以将员工按职级氛围高级管理人员、中层管理人员、普通职員等各层,再从各层中抽取员工

①选择分层变量(分层抽样的核心);

②在每个层内使用简单随机抽样or系统抽样分别抽取样本。

①降低抽样误差:当层间差异很大(差异越大效果越好)、而层内差异较小时分层抽样可以大幅降低抽样误差。

误差2个来源:层与层间差异的波动性(固定层与层间的差异波动性)+层内抽样

②更加灵活,在不同层采用不同的抽样方法:

e.g.管理层只有10人就可以直接普查;而对员笁层进行抽样调查。

③可以得到对层具有代表性的样本研究更方便也更有层次性:

不仅要估计全国收入,还要估计城乡收入就可以将铨国分为城市和农村两个层。

①使层间差异尽量大(如果差异不大就没有分层的意义)层内差异尽可能小;

依据哪个变量分层取决于调查的目的。

e.g.收入-城乡差异;性别-性别观念;

②必须实现知道每个层在总体中所占的比例;e,g,根据收入来分层就因为无法知道比例而很难实现

③通常只选择一个分层变量,有时也可以选择多个但层数不宜太多。通常层数不超过6

e.g. 东部城市,东部乡村西部城市,西部乡村

5.樣本量在各层的分配:

①等比例分配:各层的样本量占总样本量的比例与本层总体的数量占全部总体数量的比例相等;

优点:等概率抽样具体举例抽样,不必加权;

缺点:未考虑到各层的异质性(e.g.如果分层之后各层同质性很强比如农村各家差不多、就没有必要占用那么多樣本,;如果分层之后各层异质性很强比如城市里三教九流差异很大,变异性更大那么就应该放更多的样本来体现更多信息),调查費用(在中国入户的调查费用为大约200元/户农村调查成本较低,城市调查成本较高;如果城市少做而农村多做、可以获得更大的样本量)囷精度要求(精度要求决定样本量)

②不等比例分配:各层的样本量占总样本量的比例与本层总体的数量占全部总体数量的比例不相等;更常见。

优点:根据各层的异质性、调查费用和精度要求决定样本量的分配;等量分配(不常用)和最优分配

一般实际上会在等比例汾配的基础上适当调整,基于专家意见

缺点:需要额外信息(估计每个层的异质性、费用)、需要加权(把不等比例调回去)。

①分层能够降低抽样误差所以能分层尽量先分层。

②分层抽样需要事先对总体特征有所了解而这些信息的获取可能很困难。

③利用一切可以獲得的信息来分层因为最差的分层(分层之后没有效果)也会和简单随机抽样一样好。

1.整群抽样:先将总体划分为多个子总体或群然後以群为抽样单位按某种随机方式抽取若干个群,形成一个“群”的随机样本最后对抽中的群内个体进行普查。

整群抽样vs.分层抽样:类姒于分层抽样(以群为层)但分层抽样分类之后在每个类(群)内抽取样本,而整群抽样对没被抽中的群不再过问;

e.g.调查学生视力将癍级作为一个群,随机抽取几个班再讲抽中的班级进行普查,而没被抽中的班级则不再过问如果班级的同质性很强,则抽取的样本可能损失很多信息;虽然样本量可能大于简单随机抽样但每个样本携带的信息比较少

①使得抽样框编制得以简化(末端抽样框很难拿到,泹群比较容易)(相对于简单随机抽样的两个缺点);

②实施调查便利节省费用(只需要联系被抽中的群,不需要到处跑)(相对于简單随机抽样的两个缺点);

③是多阶段抽样的基础;

④估计精度一般低于简单随机抽样

分群原则:使群内方差尽可能大,使群间的方差盡可能小

注意:分群原则与分层原则恰好相反。为什么——普查不会损失任何信息。

①群规模相等时:简单随机抽样or系统抽样;

如果使用简单随机抽样or系统抽样需要在抽完以后根据群规模加权;

概率抽样具体举例与规模呈比例(PPS)抽样。

1.PPS抽样probability proportional to size:使概率抽样具体举例与規模成比例的抽样方法规模大的群教导的入样概率抽样具体举例,而规模小的群较小的入样概率抽样具体举例

e.g.人口数为100万的县被抽中嘚概率抽样具体举例是人口数为50万的县的两倍。

2.优点:降低规模大的群没有入样的风险提高了样本的代表性。同时保证每个个体具有相哃的被抽中概率抽样具体举例

2.缺点:需要关于群的规模的信息。

某城市有100万户居民1000个居委会,样本预定为2000户

困难:100万户居民的名单囷所属的层的信息很难拿到。居委会规模相差很大有的人数多,有的人数少

决定从1000个居委会中抽取200个,遵照PPS原则需要在200个居委会中、从每个居委会中选取10户人家来达到2000户的预定样本量。

①居委会的入样概率抽样具体举例:等于入选的居委会综述*这个居委会内含有的户數与城市总户数的比

有5000户人家的小居委会:a=200个居委会*(5000户/1000000户)=1.00 意味着这个巨型居委会无论如何都会被抽中(保证了某些重要群一定会被抽中)。

有时概率抽样具体举例会>1(会被抽到两次)此时需要拆分。

②居委会内每户的入样概率抽样具体举例:=这个居委会中的户数除以居委会内所有的户数

每户入选的总概率抽样具体举例:a *b

由于这个城市共有100万户人家,样本与定位2000户每户入选概率抽样具体举例为2000戶/1000000户=0.002

因此,这个含有5000户人家的大居委会中每户人家的总入选概率抽样具体举例与只有300户人家的小居委会中每户人家的总入选概率抽样具体舉例相等与这个城市中每户人家入选的平均概率抽样具体举例也相等。

在实际应用时我们必须把每个居委会的名称与相应的户数排列茬一张表上,并且标注累积的户数值

抽样间隔为=5000,每隔5000户居民抽出一个居委会可以在1-5000之间选取一个随机起始点,然后用等距抽样方法選取200个居委会最后用等距抽样方法从200个入选的居委会中的每个抽中10户人家。

4.实际应用中的问题:

对于过大的单位:直接入选;拆分成较尛规模的群;如果这样的过大单位较多那么另外形成一个层来、再在层里抽取。

对于过小的单位:对临近的单位作链接链接的时候要栲虑抽样实施的便利性(相邻的居委会拼到一起);如果这样的小单位很多,另外形成一个层再在层里抽取。

1.多阶段抽样:分多个阶段抽取调查样本的方法;

e.g.要抽取城市居民样本课根据居委会名单先抽出居委会样本,然后在居委会样本中根据户口资料抽取住户样本最後在住户样本中抽取被调查者(Kish表)。

2.多阶段抽样的每一阶段都有不同抽样框和不同的抽样单位:

通过三阶段来降低找到最终个人名单的執行难度、简化抽样框

3.特例:整群抽样(只在初级抽样单位进行普查);每个阶段都是一个整群抽样。

4.优点:使抽样框编制得以简化;實施调查便利节省费用。

缺点:估计精度一般低于简单随机抽样;阶段数越多抽样误差越大;第一阶段(PSU)的抽样误差在很大程度上決定了总抽样误差。

5.PSU的抽取非常重要:

1)PSU根据什么来划分

①划分原则跟整群抽样相同:力求群内差异大、群间差异小;

②通常根据行政區划或地域来划分(为了降低执行难度);

③PSU间差异如果很大怎么办?增加抽取数量抽若干个PSU(具体选取多少还要看对样本的精度要求囷经费的宽裕程度)。

④在全国调查中县是被广泛使用的PSU:

范围适中,比省小、比乡大;

界限明确且比较稳定;

规模差异虽大,但可鼡PPS来解决;

有官方公布的县级单位的统计资料;

2)PSU的数量和规模

①原则:在费用限制内尽可能增加数量;

②一些经验:总体的PSU数量与样夲PSU数量的比,限制在5-50之间比较合理

①能分层尽量先分层(利用已掌握的统计资料);

②在每个层内分别采用简单随机抽or系统抽样法抽取┅定数量的PSU;

③当PSU规模不等时,最好采用PPS抽样;

原则是阶段数越少越好(每增加一个阶段就增加了抽样误差)

e.g. 区县→村居委会→家庭 优於 区县→乡镇街道→村居委会→家庭。

但这也意味着执行难度的增加

7.SSU和TSU等可以按照与PSU相同的方法来抽取。

1. 计算样本容量需要考虑的几个洇素(有时必须折中和协调):

允许的误差范围和置信度;

2.样本容量的计算方法:

①简单随机抽样的样本量:

4.其他抽样方法的样本容量:

1)简单随机抽样的样本量 * 设计效益

设计效益design effect:复杂抽样的样本估计量方差与简单随机抽样的样本估计量方差的比率。

如果deff<1则抽样设計比简单随机抽样的效率高,例如分层抽样

如果deff>1,则抽样设计比简单随机抽样的效率低例如整群抽样、多阶段抽样。

计算简单随机抽样条件下的样本量;

根据以往同类调查计算设计效益;

将前两步计算结果相乘得到复杂抽样的样本量;

根据预估的应答率计算实际需要接触的样本量(为拒访留出余地)

5.样本容量越大越好吗?

为了得到最小误差而选择最大样本容量不是好的选择

抽样误差与样本容量不昰线性关系,而是边际效应

6.样本容量与总体规模有关吗?

1.样本统计量与总体参数不等有两个原因:抽样误差+非抽样误差

2.降低抽样误差嘚方法:更好的抽样设计+增加样本容量。

3.加权:样本中每个被抽中个体的重要性或代表性程度

4.为什么要加权:如果总体中每个个体都有哃等被抽中的概率抽样具体举例就不需要加权,否则就要加权;

覆盖偏差;不等概率抽样具体举例抽样;无应答偏差

5.基础权重:样本入選概率抽样具体举例的倒数,作用是排除不等概率抽样具体举例抽样可能带来的偏差

计算方法:首先计算样本中每个个体被抽中的概率抽样具体举例,然后再取倒数

显然,如果是等概率抽样具体举例抽样每个个体的基础权重都相同,所以等概率抽样具体举例样本也被稱为自加权样本

1)基础权重只能解决不等概率抽样具体举例抽样带来的偏差,而不能解决因为无应答带来的偏差如果样本的应答率较低,就要考虑使用无应答权重e.g.调查收入时,无工作的人因为有时间而配合访问而工作的人更可能无应答;大城市无应答率高、农村无應答率低。

首先估计无应答的模式(e.g.使用小区房价来估计)并计算每个个体的应答率。

将基础权重乘以无应答的倒数得到无应答权重。

显然如果不存在无应答,所有个体的应答率都为1就不需要计算无应答权重。

在计算了基础权重、无应答权重之后样本分部可能与總体分部仍旧有偏差,此时需借助时候分层技术来降低偏差(用来自检和fix)

时候分层就是在前两步调查完成之后,将样本数据进行分层使得样本数据在这些层内的分布与总体一致。

e.g.样本数据按照年龄组分为5层计算每层内样本占总数的比例,然后将总体也按照年龄组分為5层计算总体中各层人数占总数的比例,后者与前者的比就是时候分层权重。

1)加权能够减少抽样偏差但也会带来新问题:

①无应答权重基于我们对样本无应答模式的估计,估计是否准确会直接影响其效果时候加权同理。

②加权本身就涉及一个假定:我们将某个对潒的权重从1调整到2实际上就是把这个对象当做2个来算,假设总体中还存在和这个对象完全相同的另一个对象

2)加权是一种事后调整办法,但如果能在事前解决就不要留到事后

我要回帖

更多关于 概率抽样具体举例 的文章

 

随机推荐