推定とは何か

標本から母集団を推測するための考え方と、推定値の正しい報告方法

難易度 Lv 3 / 10想定時間:約25

できるようになること


推定値をどう報告するか

ある県で500世帯を無作為に選んで調査した結果、平均世帯年収が520万円でした。

この結果から、「この県の平均世帯年収は520万円です」と発表していいでしょうか。

全世帯を調査したわけではなく、500世帯の標本から推定したものです。別の500世帯を選べば、結果は少し変わるはずです。

では、「520万円」という1つの数字だけで報告していいのでしょうか。誤差の大きさは?この推定値はどれくらい信頼できるのか?

推定値を報告するには、不確実性も伝える必要があります。


推定とは何か

推定(estimation)は、標本のデータから母集団の特徴(母数)を推測することです。

母数とは

母数(parameter)は、母集団の特性を表す値です。

母数は、母集団全体を調べないと正確には分かりません。しかし、標本から推定することはできます。

推定量とは

標本から母数を推定するために使う統計量を推定量(estimator)といいます。

推定量から計算された具体的な値を推定値(estimate)といいます。


点推定と区間推定

推定には2つの方法があります。

点推定

点推定(point estimation)は、母数を1つの値で推定することです。

区間推定

区間推定(interval estimation)は、母数が含まれそうな範囲(区間)で推定することです。

区間推定(信頼区間)は別の単元で扱います。この単元では点推定を中心に整理します。


点推定の意味

点推定で得られた推定値(例:520万円)は、母数そのものではありません

推定値と母数の違い

同じ方法で標本を取り直すと、標本平均は毎回少しずつ変わります。これは標本平均の標本分布の考え方です。

点推定の限界

点推定は便利ですが、不確実性が見えないという限界があります。


推定量の望ましい性質

良い推定量には、いくつかの望ましい性質があります。

ここでは、推定したい母数を一般に θ\theta(シータ)、それを推定する推定量を θ^\hat{\theta}(シータハット)と書きます。

1. 不偏性

不偏性(unbiasedness):推定量の期待値が、推定したい母数と等しい。

E[θ^]=θE[\hat{\theta}] = \theta

:標本平均 Xˉ\bar{X} は母平均 μ\mu の不偏推定量です(E[Xˉ]=μE[\bar{X}] = \mu)。

不偏性があると、「平均的には」正しい値を推定できます。

不偏性の実例:なぜ n1n-1 で割るのか

分散の単元で、標本分散を計算するとき「nn ではなく n1n-1 で割る」と学びました。ここでその理由が明らかになります。

nn で割る標本分散(母集団全体を知っているときの計算方法):

Sn2=1ni=1n(XiXˉ)2S_n^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2

n1n-1 で割る標本分散(不偏標本分散):

s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2

nn で割る標本分散の期待値は、 E[Sn2]=n1nσ2E[S_n^2] = \frac{n-1}{n}\sigma^2 となり、母分散 σ2\sigma^2 より常に小さくなります。つまり、母集団のばらつきを常に小さめに見積もってしまいます。

n1n-1 で割る標本分散の期待値は、E[s2]=σ2E[s^2] = \sigma^2 となり、平均的には母分散と一致します。これが不偏推定量です。

なぜ過小評価になるのか(直感的な理解)

本来は母平均 μ\mu からの偏差 (Xiμ)(X_i - \mu) で分散を計算したいのですが、μ\mu は未知なので、代わりに標本平均 Xˉ\bar{X} を使います。ここに落とし穴があります。

具体例で見てみましょう。母平均が μ=50\mu = 50 の母集団から、3つの値 {45,48,52}\{45, 48, 52\} を取ったとします。

標本平均からの偏差の二乗和(24.7)は、母平均からの偏差の二乗和(33)より小さくなっています

これは偶然ではありません。Xˉ\bar{X} はそのデータから計算された値なので、μ\mu よりもデータに「フィット」してしまいます。その結果、Xˉ\bar{X} からの偏差は μ\mu からの偏差より小さくなります。

n1n-1 で割るのは、この過小評価を補正するための操作です。

ポイント

nn で割る vs n1n-1 で割る

  • nn で割る:母分散を常に小さめに見積もる(偏った推定量)
  • n1n-1 で割る:平均的には母分散と一致する(不偏推定量)
  • nn が大きくなると n1n1\frac{n-1}{n} \to 1 となり、両者の差は小さくなります

2. 一致性

一致性(consistency):標本サイズを大きくすれば、母数から大きく外れた推定値が出る確率が極めて小さくなる。

:標本平均 Xˉ\bar{X} は一致推定量です。nn が大きくなると、Xˉ\bar{X}μ\mu に近い値をとりやすくなります。

3. 効率性

効率性(efficiency):同じ母数を推定する不偏推定量どうしを比べるとき、分散が小さい推定量を(より)効率的といいます。

分散が小さいほど、推定値のばらつきが小さく、安定した推定ができます。


標準誤差と推定の精度

点推定の精度は、標準誤差で測ることができます。

標本平均の標準誤差

無作為抽出により、観測値が互いに独立で同じ分布に従うとき、標本平均の標準誤差は次の形になります:

SE=σn\text{SE} = \frac{\sigma}{\sqrt{n}}

標準誤差が小さいほど、推定値は母数に近い値になりやすく、推定が安定しています。

実務では母分散 σ2\sigma^2 が未知

実際には、母分散 σ2\sigma^2 も未知です。そのため、標本から計算した不偏標準偏差 ssn1n-1で割る)を使って推定します:

SE^=sn\hat{\text{SE}} = \frac{s}{\sqrt{n}}

ここで ss は標本から計算した不偏標準偏差です。これを推定標準誤差といいます。


推定値の報告方法

推定値を報告するときは、不確実性も伝えることが重要です。

最低限の情報:推定値と標準誤差

平均世帯年収:520万円(標準誤差:15万円)

または:

平均世帯年収:520万円 ± 15万円(平均値 ± 標準誤差)

ポイント

標準誤差を ± で書くこともありますが、信頼区間と混同されやすいため、明示的に「標準誤差」と書く方が安全です。

より詳しい報告

次の情報も含めると、読み手が推定の信頼性を判断できます:

(正規分布近似が妥当なとき)95%信頼区間はおおよそ「推定値 ± 2 × 標準誤差」になります。上の例では、520±2×15490550520 \pm 2 \times 15 \approx 490 \sim 550 となります。

ある県の500世帯を無作為に抽出して調査した結果、平均世帯年収は520万円(標準誤差15万円、95%信頼区間490〜550万円)と推定されました。


点推定だけでは不十分な理由

点推定値だけを報告すると、次のような問題があります:

1. 精度が分からない

「520万円」だけでは、±10万円の誤差なのか、±100万円の誤差なのか分かりません。

2. 標本サイズの影響が見えない

標本サイズ10でも1000でも、同じ「520万円」と表示されます。しかし、精度は大きく違います。

3. 読み手が誤解する

「520万円」という確定的な表現は、「母集団全体が正確に520万円」と誤解されやすいです。


よくある誤解

注意
  • 誤解1:推定値 = 母数の真の値 — 推定値は母数に近い値になりやすいですが、一致するとは限りません。推定値はあくまで標本から計算した近似値です。
  • 誤解2:標本サイズが大きければ推定値 = 母数 — 標本サイズが大きくても、推定値と母数が完全に一致することはありません。ただし、標準誤差が小さくなるので、より正確な推定になります。
  • 誤解3:標準誤差は「間違いの大きさ」 — 標準誤差は「推定値がどれくらいばらつくか」の目安です。「間違いの大きさ」ではなく、「不確実性の大きさ」を表します。
  • 誤解4:標準誤差 = 標本標準偏差 — 標本標準偏差(ss)は個々のデータの散らばり、標準誤差(SE\text{SE})は標本平均がどれくらい揺れるかを表します。標準誤差は標本標準偏差を n\sqrt{n} で割ったものです。
  • 誤解5:点推定だけで十分 — 点推定は分かりやすいですが、不確実性が見えません。標準誤差や信頼区間も合わせて報告することが重要です。

まとめ

推定は、標本のデータから母集団の特徴(母数)を推測することです。

点推定は母数を1つの値で推定する方法です。標本平均は母平均の推定量として使われます。

良い推定量の性質として、不偏性、一致性、効率性があります。

推定値を報告するときは、標準誤差や信頼区間など、不確実性も合わせて伝えることが重要です。

点推定は区間推定(信頼区間)と組み合わせて使います。