系统抽样中剔除多余个体的主要目的是 保证每个个体被抽中的概率相等,从而确保抽样的公平性和代表性。具体原因如下:
一、系统抽样的基本原理
系统抽样通过以下步骤实现:
编号与分段:
将总体按顺序编号,计算分段间隔 $k = \frac{N}{n}$($N$为总体规模,$n$为样本容量);
确定起始点:
随机选择第一个样本的编号 $r$(通常在1到$k$之间);
等距抽取:
按固定间隔 $k$ 依次抽取样本,即编号为 $r, r+k, r+2k, \dots$ 的个体。
二、剔除多余个体的必要性
避免遗漏样本 若总体规模 $N$ 不是样本容量 $n$ 的整数倍,直接按固定间隔抽样会导致部分编号无法对应到个体,从而遗漏样本。例如,$N=1050$,$n=300$,则 $k=3.5$,无法直接等距抽取。
确保等可能性
剔除多余个体后重新编号,可以确保每个个体在每个分段中都有相同的被抽中概率。若不剔除直接抽样,早期被排除的个体概率较低,后续个体概率会相对提高,破坏等可能性原则。
三、操作步骤与概率分析
剔除过程
先剔除总体中无法被整除的个体(如余数部分),使剩余个体数 $N'$ 成为 $n$ 的整数倍;
重新编号与抽样
对剩余个体重新编号,按固定间隔 $k' = \frac{N'}{n}$ 抽取样本。此时,每个个体被抽中的概率均为 $\frac{1}{N'}$,且各分段内概率均匀。
四、补充说明
概率一致性: 虽然剔除个体时某些编号暂时消失,但每个个体在整个抽样过程中被抽中的概率保持一致。例如,初始编号100的个体,若未被剔除且位于分段内,其概率仍为 $\frac{1}{N'}$; 公平性保障
综上,剔除多余个体是系统抽样的关键步骤,通过重新编号和等距抽取,既避免了样本遗漏,又确保了抽样的等可能性。