采集数据时如何选择合适的抽样方法

Netflix通过对用户的广泛调取得出了《纸牌屋》导演与男主角的人选,获得了成功(Netflix如何通过数据分析造就《纸牌屋》);Facebook通过抽取特定人群的数据洞察出了情侣间互动的规律,从而带给用户更美好的体验(Facebook精准数据分析案例分享);李毅通过随机调查用户日常购买水果的品种,取得了事业上的成功(正确数据分层因素商业经营案例)。这些案例都在告诉我们一个真理:收集数据时一定要选择合适的抽样方法。
在收集数据中,数据分析师采用的抽样方法有4种:简单随机抽样、分层抽样、整群抽样、系统抽样。

1.简单随机抽样
简单随机抽样的称呼有很多种,例如单纯随机抽样、SRS抽样等。它是指通过逐个抽取的方式从总数为M
个的单位中任意抽出N个单位作为样本的一种抽样方式,它要求每个样本被抽中的概率相等。
简单随机抽样的特点十分明显:
(1)被抽取的样本的总数M是有限的。
(2)抽取样本数N小于或等于样本总数M。
(3)抽取样本需要从总体中逐个抽取。
(4)每个单位被抽中的概率是相等的。
当然,简单随机抽样也存在着十分多的缺点:
(1)事先需要对样本进行编号,比较耗费时间。
(2)假如总体样本分布地点较为不均,那么抽取样本的分布地点也不均,这就给数据收集带来了困难。
(3)当样本容量较小时,例如只有10个左右时,抽取的样本容易出现偏向,影响结果的正确性。
(4)当已知研究对象的某种特征会直接影响研究结果时,就不能采用简单随机取样法。
一般来说,简单随机抽样可以分为两种:重复抽样、不重复抽样。在重复抽样中,每一次抽中的样本单位需要放回总体中,所以样本中的某个单位可能会被抽中多次。在不重复抽样中,抽中的样本单位不需要放回总体中,所以样本中的某个单位最多只会被抽中一次。

2.分层抽样
分层抽样法也可以称为类型抽样法。它是指在可以分为不同层级样本的总体中,按照一定的比例从不同层级的样本中随机抽取一部分样本的方法。这种方法的优点是,通过划分层级,增大了各类型单位间的共同性,容易得出有代表性的样本,使得总体的抽样结果误差较小。而缺点是中间步骤比简单随机抽样还要繁杂一点。
分层抽样的具体步骤如下:
(1)首先依据样本单位的特征对样本总体进行层级划分。例如,研究某种产品的消费者时,考虑到未成年人与成年人具有不同的消费水平,因此将样本总体划分为成年人与未成年人两个层级。
(2)确定每个层级占样本总体的比例,依据比例确定每个层级需要抽取的样本数。
(3)用简单随机抽样的方法从每个层级中抽取独立的样本单位。
一般来说,常见的分层依据有性别、年龄、教育、职业等。分层抽样在社会调查中被广泛使用,在样本容量相同的情况下,它比简单随机抽样的精度高,同时管理较为方便,成本低,效度较高。

3.整群抽样
整群抽样指将总体分成许多群,这些群均按照一定的规则由样本单位结合而成,然后通过简单随机抽样的方法抽取其中的某个或某些群,抽中的群中的所有样本单位均是被选中的个体。整群抽样是对抽中各群全面调查的一种抽样方式。
例如,要检验工地某一批钢筋的质量,并不是逐根抽取钢筋来检验,而是将钢筋分成若干批,从中抽取某几批进行检验。
整群抽样的具体步骤如下:
(1)确定分群的标记。
(2)按照标记,将总体分成若干个互不重叠的群。
(3)确定应该抽取的群数。
(4)采用简单随机抽样方法,抽取确定的群数。
例如,需要调查某个学校高中生的零用钱情况,我们可以抽取某一个班做统计;进行产品质量检测时,我们可以每隔3个小时对一批货物进行检验等。
整群抽样的优点是易于实施、节省经费;缺点是由于不同群之间的差异较大,所引起的抽样误差也远远超过简单随机抽样与分层抽样,且样本分布面不广,容易缺失代表性。整群抽样与分层抽样虽然在形式上有相似之处,但在实际结果上会产生较大差别:
(1)分层抽样中,各层级差异很大,但层内个体差异小,而整群抽样中,各群之间的差异较小,但群内个体差异大。
(2)分层抽样是在每个层级内抽取若干个体作为样本的,而整群抽样则以抽中的整群为样本。

4.系统抽样
系统抽样也被称为等距抽样、机械抽样。它是指将总体的所有单元按照一定次序排列,先依据简单随机抽样的方法抽取第一个样本单元(又称为随机起点),再按照一定顺序抽取其余的样本单元的抽样方法。
系统抽样可选用下列方法进行抽样。
(1)随机起点系统抽样
将总体分成K段(K=M/N,取整数),从第一个算起,每隔K个单位抽取一个样本单位,直到选出N个单位为止。这N个单位就构成了随机起点的样本。
这种方法可以保证每个单位都有相同的概率被抽到,但是,如果随机点处于该段的低端或高端部分,就会导致后续抽取的单位偏离相应的位置,从而使抽样的样本出现误差。
(2)半距起点系统随机抽样
这种方法是在总体的第一段,以1,…,K的中间项为起点,每隔K个单位抽取一个样本单位,直到抽满N个样本单位为止。
(3)随机起点对称系统抽样
这种方法是在总体的第一段随机选取第F个单位作为样本,然后在第二段抽取第2K-F+1个单位,第三段抽取第3K+F个单位,第四段抽取第4K-F+1个单位……按照此类方法依次交替对称进行。简单来说,就是在总体奇数段抽取nK+F
个单位(n=0,2,4,6…),在偶数段抽取nK-F+1(n=2,4,6…)。
这种抽样方法可以保证样本不会出现偏向问题,以抵消或避免抽样中的系统误差。
(4)循环系统抽样
当M为有限的总体而且不能被N整除时,换句话说就是K不是一个整数时,可以将所有的样本按照一定的次序排成首尾相接的循环形状,用M/N确定抽样间隔K(K可以取与M/N得数最接近的整数),然后从第一段中抽取一个单位作为随机起点,再每隔K个单位抽取一个单位,直至抽满为止。

希望以上介绍的内容能帮助各位在日后的数据收集中掌握正确的抽样方法,收集具有代表意义的数据。

未经允许不得转载:陈海飞博客 » 采集数据时如何选择合适的抽样方法

分享到:更多 ()