標本分布という考え方

1回の調査結果に一喜一憂しないための、数理的メカニズム

難易度 Lv 3 / 10想定時間：約25分

1000人の成人男性の平均身長を調査したら171.2cmでした。

もう一度、別の1000人で調査したら170.8cmになりました。さらにもう一度調査したら171.5cm。

同じ母集団から標本を取っても、結果は毎回変わります。 では、この「ばらつき」はどれくらいなのでしょうか。

標本分布を理解すると、「調査結果がどれくらいばらつくか」を予測できるようになります。

標本分布（sampling distribution）は、標本から計算した統計量（平均、割合など）が、標本を繰り返し取ったときにどのように分布するかを表す確率分布です。

この単元では、統計量の中でも特に標本平均の標本分布に焦点を当てます。

実際には調査を何度も繰り返すことはありませんが、次のような「もし繰り返したら」という架空の状況を想定します：

この繰り返しで得られた標本平均の分布が、標本分布です。これにより、たった1回の調査結果が「母集団の中でどれくらい起こりやすい（または珍しい）値なのか」を判断する基準が得られます。

母集団の平均を $\mu$ 、分散を $\sigma^2$ とします。標本サイズ $n$ の標本平均 $\bar{X}$ について、以下の性質が成り立ちます。

$E[\bar{X}] = \mu$ 「平均的には」標本平均は母集団の平均と一致することを意味します（不偏性）。

$V[\bar{X}] = \frac{\sigma^2}{n}$ 標本サイズ $n$ が大きいほど、標本平均のばらつき（推測の不安定さ）は小さくなります。

標本平均の標準偏差を、特に標準誤差（standard error, SE）といいます。 $\text{SE} = \frac{\sigma}{\sqrt{n}}$ 標準誤差は、「標本平均が母平均からどれくらいずれやすいか」の目安です。

中心極限定理（Central Limit Theorem, CLT）は、推測統計の根幹を支える最も重要な定理です。

ポイント

中心極限定理 無作為抽出で得た独立な標本であれば、母集団の分布が何であっても、標本サイズ $n$ が十分大きければ、標本平均の分布は正規分布に近づく。 $\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$

統計学では、以下の3つの分布を明確に区別することが重要です。

標準誤差 $\text{SE} = \frac{\sigma}{\sqrt{n}}$ を小さくし、推測を安定させるには、標本サイズ $n$ を大きくする必要があります。

注意

誤解：標本分布＝標本内のデータの分布
- 標本分布は「標本を何度も取り直したときの『平均値』の集まり」です。1回の調査で手元にあるデータの広がりとは別物です。
誤解：中心極限定理は母集団が正規分布のときだけ
- 逆です。母集団が正規分布でなくても、平均値をとれば正規分布になる、という点にこの定理の驚異的な威力があります。

標本分布は、標本平均などの統計量が「繰り返し調査したときにどう振る舞うか」を示す分布です。

中心極限定理によって、十分なサイズの標本があれば標本平均は正規分布に従うとみなせるため、私たちは母集団の本当の姿を正確に知らなくても、確率に基づいた推論が可能になります。この標本分布という概念が、次章で学ぶ「推定」や「検定」のすべての計算の土台となります。