母集団と標本

「一部から全体を知る」ための標本の取り方とバイアスの正体

難易度 Lv 2 / 10想定時間:約20

できるようになること


標本の取り方が結果を左右する

「選挙の予測が大きく外れた」というニュースを聞いたことがあるかもしれません。原因の一つは、標本の取り方にあります。

電話調査だけだと、固定電話を持たない層の意見が入りにくいことがあります。ネット調査だけだと、ネット利用が少ない層の意見が入りにくいことがあります。

標本に偏り(バイアス)があると、集める人数を増やしても推測が「偏ったまま」になりやすく、母集団の値からずれてしまいます。

この単元では、標本抽出の方法とバイアスについて詳しく学びます。また、人数で減る誤差(標本誤差)と、人数では減らない誤差(非標本誤差)も整理します。


母集団と標本(復習)

記述統計と推測統計の単元で学んだ基本を、簡単に復習します。

推測統計では、標本のデータから母集団の特徴(平均、割合など)を推測します。


良い標本の条件

標本から母集団を推測するには、特定の層だけが過剰/過小に含まれないように設計されている必要があります(この「偏りの小ささ」を代表性と呼びます)。

代表性を確保するための方法が、標本抽出法です。


標本抽出の方法

1. 単純無作為抽出(Simple Random Sampling)

母集団からランダム(無作為)に標本を選ぶ、最も基本的な方法です。

2. 層別抽出(Stratified Sampling)

母集団をいくつかの層(グループ)に分けてから、各層からランダムに抽出する方法です。

3. 系統抽出(Systematic Sampling)

母集団のリストから、一定間隔で抽出する方法です。

4. クラスター抽出(Cluster Sampling)

母集団をクラスター(集団)に分けて、いくつかのクラスター全体を抽出する方法です。


標本サイズの考え方

「何人調査すればいいか?」という問いは、実務で必ず直面します。

標本サイズと誤差の関係

無作為抽出において、標本サイズ(nn)が大きいほど推測の誤差は小さくなります。誤差の大きさは標本サイズの平方根に反比例します。

標準誤差1n\text{標準誤差} \propto \frac{1}{\sqrt{n}}

ポイント

標本サイズより標本の取り方が重要です 10万人の偏った標本より、精度高く設計された1000人のランダムな標本の方が、母集団を正しく反映します。


バイアスの種類

標本が母集団を代表していない状態をバイアス(偏り)といいます。

1. 選択バイアス

調査の「入り口」で特定の層が除外されたり、特定の層が入りやすくなったりする偏りです。

2. 無回答バイアス

調査対象に選ばれたものの、回答しなかった人々が特定の傾向を持っている場合の偏りです。

3. 測定バイアス

質問の仕方や調査環境によって、回答が不自然に誘導される偏りです。


標本誤差と非標本誤差

推測の誤差には、大きく分けて2種類あります。

標本誤差

標本が母集団の一部であることから確率的に生じる、避けられない誤差です。標本サイズを増やすことで小さくできます。

非標本誤差

バイアスや測定ミス、入力ミスなど、設計や運用で避けられる(避けるべき)誤差です。


実務での注意点

  1. 調査設計を報告する:母集団の定義、抽出方法、回答率などを明記し、透明性を確保します。
  2. バイアスの可能性を認識する:完璧な調査はないことを前提に、「どんな偏りがあり得るか」を考慮して結果を解釈します。
  3. 報告での説明
ポイント

「ネット調査(回答率25%)の結果、賛成が多数でした。ただし、デジタルデバイス利用者に限定された調査であるため、高齢層の意向は別途慎重に解釈する必要があります。」


まとめ

標本から母集団を推測するには、適切な抽出法(無作為、層別、系統、クラスター)選びが欠かせません。

標本サイズを増やすことは「標本誤差」を減らすには有効ですが、不適切な設計による「非標本誤差(バイアス)」は人数を増やしても解消されません 。機械的に人数を追うのではなく、根拠を持って「どう取るか」を判断することが、信頼できる分析の第一歩です。