推定とは何か

標本から母集団を推測するための考え方と、推定値の正しい報告方法

難易度 Lv 3 / 10想定時間：約25分

できるようになること

点推定と区間推定の違いを説明できる
推定量の望ましい性質（不偏性・一致性・効率性）を理解できる
標準誤差を使って推定値の不確実性を報告できる

推定値をどう報告するか

ある県で500世帯を無作為に選んで調査した結果、平均世帯年収が520万円でした。

この結果から、「この県の平均世帯年収は520万円です」と発表していいでしょうか。

全世帯を調査したわけではなく、500世帯の標本から推定したものです。別の500世帯を選べば、結果は少し変わるはずです。

では、「520万円」という1つの数字だけで報告していいのでしょうか。誤差の大きさは？この推定値はどれくらい信頼できるのか？

推定値を報告するには、不確実性も伝える必要があります。

推定とは何か

推定（estimation）は、標本のデータから母集団の特徴（母数）を推測することです。

母数とは

母数（parameter）は、母集団の特性を表す値です。

例：

母平均 $\mu$
母分散 $\sigma^2$
母比率（割合） $p$

母数は、母集団全体を調べないと正確には分かりません。しかし、標本から推定することはできます。

推定量とは

標本から母数を推定するために使う統計量を推定量（estimator）といいます。

例：

標本平均 $\bar{X}$ → 母平均 $\mu$ の推定量
標本分散 $s^2$ → 母分散 $\sigma^2$ の推定量
標本比率 $\hat{p}$ → 母比率 $p$ の推定量

推定量から計算された具体的な値を推定値（estimate）といいます。

点推定と区間推定

推定には2つの方法があります。

点推定

点推定（point estimation）は、母数を1つの値で推定することです。

例：

標本平均が520万円 → 母平均を520万円と推定

区間推定

区間推定（interval estimation）は、母数が含まれそうな範囲（区間）で推定することです。

例：

母平均は「490万円〜550万円の範囲にある」と推定

区間推定（信頼区間）は別の単元で扱います。この単元では点推定を中心に整理します。

点推定の意味

点推定で得られた推定値（例：520万円）は、母数そのものではありません。

推定値と母数の違い

母数（ $\mu$ ）：母集団全体の真の値。固定された値だが、通常は未知
推定値（例：520万円）：標本から計算した値。標本が変われば変わる

同じ方法で標本を取り直すと、標本平均は毎回少しずつ変わります。これは標本平均の標本分布の考え方です。

点推定の限界

点推定は便利ですが、不確実性が見えないという限界があります。

「520万円」だけでは、誤差の大きさが分からない
標本サイズが10でも1000でも、同じ「520万円」と表示される

推定量の望ましい性質

良い推定量には、いくつかの望ましい性質があります。

ここでは、推定したい母数を一般に $\theta$ （シータ）、それを推定する推定量を $\hat{\theta}$ （シータハット）と書きます。

1. 不偏性

不偏性（unbiasedness）：推定量の期待値が、推定したい母数と等しい。

E[\hat{\theta}] = \theta

例：標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量です（ $E[\bar{X}] = \mu$ ）。

不偏性があると、「平均的には」正しい値を推定できます。

不偏性の実例：なぜ $n-1$ で割るのか

分散の単元で、標本分散を計算するとき「 $n$ ではなく $n-1$ で割る」と学びました。ここでその理由が明らかになります。

$n$ で割る標本分散（母集団全体を知っているときの計算方法）：

S_n^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2

$n-1$ で割る標本分散（不偏標本分散）：

s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2

$n$ で割る標本分散の期待値は、 $E[S_n^2] = \frac{n-1}{n}\sigma^2$ となり、母分散 $\sigma^2$ より常に小さくなります。つまり、母集団のばらつきを常に小さめに見積もってしまいます。

$n-1$ で割る標本分散の期待値は、 $E[s^2] = \sigma^2$ となり、平均的には母分散と一致します。これが不偏推定量です。

なぜ過小評価になるのか（直感的な理解）

本来は母平均 $\mu$ からの偏差 $(X_i - \mu)$ で分散を計算したいのですが、 $\mu$ は未知なので、代わりに標本平均 $\bar{X}$ を使います。ここに落とし穴があります。

具体例で見てみましょう。母平均が $\mu = 50$ の母集団から、3つの値 $\{45, 48, 52\}$ を取ったとします。

母平均からの偏差の二乗和： $(45-50)^2 + (48-50)^2 + (52-50)^2 = 25 + 4 + 4 = 33$
標本平均 $\bar{X} = 48.3$ からの偏差の二乗和： $(45-48.3)^2 + (48-48.3)^2 + (52-48.3)^2 \approx 10.9 + 0.1 + 13.7 = 24.7$

標本平均からの偏差の二乗和（24.7）は、母平均からの偏差の二乗和（33）より小さくなっています。

これは偶然ではありません。 $\bar{X}$ はそのデータから計算された値なので、 $\mu$ よりもデータに「フィット」してしまいます。その結果、 $\bar{X}$ からの偏差は $\mu$ からの偏差より小さくなります。

$n-1$ で割るのは、この過小評価を補正するための操作です。

ポイント

$n$ で割る vs $n-1$ で割る

$n$ で割る：母分散を常に小さめに見積もる（偏った推定量）
$n-1$ で割る：平均的には母分散と一致する（不偏推定量）
$n$ が大きくなると $\frac{n-1}{n} \to 1$ となり、両者の差は小さくなります

2. 一致性

一致性（consistency）：標本サイズを大きくすれば、母数から大きく外れた推定値が出る確率が極めて小さくなる。

例：標本平均 $\bar{X}$ は一致推定量です。 $n$ が大きくなると、 $\bar{X}$ は $\mu$ に近い値をとりやすくなります。

3. 効率性

効率性（efficiency）：同じ母数を推定する不偏推定量どうしを比べるとき、分散が小さい推定量を（より）効率的といいます。

分散が小さいほど、推定値のばらつきが小さく、安定した推定ができます。

標準誤差と推定の精度

点推定の精度は、標準誤差で測ることができます。

標本平均の標準誤差

無作為抽出により、観測値が互いに独立で同じ分布に従うとき、標本平均の標準誤差は次の形になります：

\text{SE} = \frac{\sigma}{\sqrt{n}}

標準誤差が小さいほど、推定値は母数に近い値になりやすく、推定が安定しています。

実務では母分散 $\sigma^2$ が未知

実際には、母分散 $\sigma^2$ も未知です。そのため、標本から計算した不偏標準偏差 $s$ （ $n-1$ で割る）を使って推定します：

\hat{\text{SE}} = \frac{s}{\sqrt{n}}

ここで $s$ は標本から計算した不偏標準偏差です。これを推定標準誤差といいます。

推定値の報告方法

推定値を報告するときは、不確実性も伝えることが重要です。

最低限の情報：推定値と標準誤差

例：

平均世帯年収：520万円（標準誤差：15万円）

または：

平均世帯年収：520万円 ± 15万円（平均値 ± 標準誤差）

ポイント

標準誤差を ± で書くこともありますが、信頼区間と混同されやすいため、明示的に「標準誤差」と書く方が安全です。

より詳しい報告

次の情報も含めると、読み手が推定の信頼性を判断できます：

標本サイズ：500世帯
抽出方法：無作為抽出
標準誤差：15万円
信頼区間：490〜550万円（95%信頼区間）

（正規分布近似が妥当なとき）95%信頼区間はおおよそ「推定値 ± 2 × 標準誤差」になります。上の例では、 $520 \pm 2 \times 15 \approx 490 \sim 550$ となります。

例：

ある県の500世帯を無作為に抽出して調査した結果、平均世帯年収は520万円（標準誤差15万円、95%信頼区間490〜550万円）と推定されました。

点推定だけでは不十分な理由

点推定値だけを報告すると、次のような問題があります：

1. 精度が分からない

「520万円」だけでは、±10万円の誤差なのか、±100万円の誤差なのか分かりません。

2. 標本サイズの影響が見えない

標本サイズ10でも1000でも、同じ「520万円」と表示されます。しかし、精度は大きく違います。

3. 読み手が誤解する

「520万円」という確定的な表現は、「母集団全体が正確に520万円」と誤解されやすいです。

よくある誤解

注意

誤解1：推定値 = 母数の真の値 — 推定値は母数に近い値になりやすいですが、一致するとは限りません。推定値はあくまで標本から計算した近似値です。
誤解2：標本サイズが大きければ推定値 = 母数 — 標本サイズが大きくても、推定値と母数が完全に一致することはありません。ただし、標準誤差が小さくなるので、より正確な推定になります。
誤解3：標準誤差は「間違いの大きさ」 — 標準誤差は「推定値がどれくらいばらつくか」の目安です。「間違いの大きさ」ではなく、「不確実性の大きさ」を表します。
誤解4：標準誤差 = 標本標準偏差 — 標本標準偏差（ $s$ ）は個々のデータの散らばり、標準誤差（ $\text{SE}$ ）は標本平均がどれくらい揺れるかを表します。標準誤差は標本標準偏差を $\sqrt{n}$ で割ったものです。
誤解5：点推定だけで十分 — 点推定は分かりやすいですが、不確実性が見えません。標準誤差や信頼区間も合わせて報告することが重要です。

まとめ

推定は、標本のデータから母集団の特徴（母数）を推測することです。

点推定は母数を1つの値で推定する方法です。標本平均は母平均の推定量として使われます。

良い推定量の性質として、不偏性、一致性、効率性があります。

推定値を報告するときは、標準誤差や信頼区間など、不確実性も合わせて伝えることが重要です。

点推定は区間推定（信頼区間）と組み合わせて使います。

推定とは何か

できるようになること

推定値をどう報告するか

推定とは何か

母数とは

推定量とは

点推定と区間推定

点推定

区間推定

点推定の意味

推定値と母数の違い

点推定の限界

推定量の望ましい性質

1. 不偏性

不偏性の実例：なぜ n−1n-1n−1 で割るのか

なぜ過小評価になるのか（直感的な理解）

2. 一致性

3. 効率性

標準誤差と推定の精度

標本平均の標準誤差

実務では母分散 σ2\sigma^2σ2 が未知

推定値の報告方法

最低限の情報：推定値と標準誤差

より詳しい報告

点推定だけでは不十分な理由

1. 精度が分からない

2. 標本サイズの影響が見えない

3. 読み手が誤解する

よくある誤解

まとめ

不偏性の実例：なぜ $n-1$ で割るのか

実務では母分散 $\sigma^2$ が未知