標本分布という考え方
1回の調査結果に一喜一憂しないための、数理的メカニズム
できるようになること
- 標本分布の意味を説明できる
- 中心極限定理の内容と重要性を理解できる
- 標準誤差の意味と標本サイズとの関係を説明できる
同じ調査を繰り返したら
1000人の成人男性の平均身長を調査したら171.2cmでした。
もう一度、別の1000人で調査したら170.8cmになりました。さらにもう一度調査したら171.5cm。
同じ母集団から標本を取っても、結果は毎回変わります。 では、この「ばらつき」はどれくらいなのでしょうか。
標本分布を理解すると、「調査結果がどれくらいばらつくか」を予測できるようになります。
標本分布とは何か
標本分布(sampling distribution)は、標本から計算した統計量(平均、割合など)が、標本を繰り返し取ったときにどのように分布するかを表す確率分布です。
この単元では、統計量の中でも特に標本平均の標本分布に焦点を当てます。
思考実験:標本を繰り返し取る
実際には調査を何度も繰り返すことはありませんが、次のような「もし繰り返したら」という架空の状況を想定します:
- 母集団から標本サイズ の標本を1つ取る
- 標本平均を計算する
- 再び別の標本を取り、平均を計算する
- これを無限に繰り返す
この繰り返しで得られた標本平均の分布が、標本分布です。これにより、たった1回の調査結果が「母集団の中でどれくらい起こりやすい(または珍しい)値なのか」を判断する基準が得られます。
標本平均の分布
母集団の平均を 、分散を とします。標本サイズ の標本平均 について、以下の性質が成り立ちます。
標本平均の期待値
「平均的には」標本平均は母集団の平均と一致することを意味します(不偏性)。
標本平均の分散
標本サイズ が大きいほど、標本平均のばらつき(推測の不安定さ)は小さくなります。
標準誤差(SE)
標本平均の標準偏差を、特に標準誤差(standard error, SE)といいます。 標準誤差は、「標本平均が母平均からどれくらいずれやすいか」の目安です。
中心極限定理
中心極限定理(Central Limit Theorem, CLT)は、推測統計の根幹を支える最も重要な定理です。
中心極限定理 無作為抽出で得た独立な標本であれば、母集団の分布が何であっても、標本サイズ が十分大きければ、標本平均の分布は正規分布に近づく。
なぜ重要か
- 母集団の形を問わない:元のデータがどんなに歪んでいても、その「平均値」の分布は正規分布に落ち着きます。
- 実用性:一般に 程度あれば、近似的に正規分布として扱えるとされています。
3つの分布の違い
統計学では、以下の3つの分布を明確に区別することが重要です。
| 母集団分布 | 標本の分布 | 標本分布 | |
|---|---|---|---|
| 何の分布か | 母集団全体のデータ | 取り出した1つの標本内のデータ | 標本平均(統計量)の分布 |
| 平均 | 標本によって変わる | ||
| 分散 | 標本によって変わる | ||
| 形 | その集団の性質による | 母集団分布に似る | 正規分布に近づく |
標準誤差の解釈
標準誤差 を小さくし、推測を安定させるには、標本サイズ を大きくする必要があります。
- 誤差を半分にするには: を 4倍 にする必要があります。
- 母分散 の影響:母集団自体のばらつきが大きい場合、それを相殺するためにはより多くの標本が必要です。
よくある誤解
- 誤解:標本分布 = 標本内のデータの分布
- 標本分布は「標本を何度も取り直したときの『平均値』の集まり」です。1回の調査で手元にあるデータの広がりとは別物です。
- 誤解:中心極限定理は母集団が正規分布のときだけ
- 逆です。母集団が正規分布でなくても、平均値をとれば正規分布になる、という点にこの定理の驚異的な威力があります。
まとめ
標本分布は、標本平均などの統計量が「繰り返し調査したときにどう振る舞うか」を示す分布です。
中心極限定理によって、十分なサイズの標本があれば標本平均は正規分布に従うとみなせるため、私たちは母集団の本当の姿を正確に知らなくても、確率に基づいた推論が可能になります。この標本分布という概念が、次章で学ぶ「推定」や「検定」のすべての計算の土台となります。