検定の誤りと解釈

第1種・第2種の過誤、統計的有意差の正しい解釈、よくある誤解

難易度 Lv 4 / 10想定時間:約20

できるようになること


検定における2つの誤り

検定の判定は、2種類の誤りを犯す可能性があります。

第1種の過誤(αエラー)

第1種の過誤は、帰無仮説が正しいのに、誤って棄却してしまう誤りです。

例:実際には効果がないのに、「効果がある」と判定してしまう。

第1種の過誤が起こる確率は、有意水準 α で制御されています。α = 0.05 なら、(同じ手順を繰り返したときに)長期的に約5%の割合で起こります。

第2種の過誤(βエラー)

第2種の過誤は、帰無仮説が誤りなのに、棄却できない誤りです。

例:実際には効果があるのに、「効果がない」と判定してしまう。

第2種の過誤が起こる確率を β(ベータ)といいます。

2つの誤りの関係

帰無仮説が実際には正しい帰無仮説が実際には誤り
帰無仮説を棄却第1種の過誤(確率 α)正しい判定
帰無仮説を棄却しない正しい判定第2種の過誤(確率 β)

有意水準 α を小さく設定する(棄却の基準を厳格にする)と、帰無仮説を棄却しにくくなるため、結果として対立仮説が真であっても棄却できない確率 β が増加します。このトレードオフを考慮して、有意水準を選びます。


統計的有意差の意味

「統計的に有意である」という言葉は、慎重に解釈する必要があります。

統計的有意差とは

統計的有意差は、「観測された差が偶然では説明しにくい」という意味です。

これは次のことを意味しません:

実質的な重要性との違い

例1:標本サイズ10000で、平均点が0.1点上がり、p値 < 0.05。統計的には有意だが、0.1点の差は実質的には意味がない。

例2:標本サイズ20で、平均点が10点上がり、p値 = 0.08。統計的には有意でないが、10点の差は実質的には大きい。

統計的有意差と実質的な重要性は、別の概念です。

ポイント

効果の大きさは、p値ではなく、平均差そのものや標準化した差(効果量)で評価します。統計的有意差だけでなく、効果量も合わせて報告することが重要です。


よくある誤解

注意
  • 誤解1:p値は「帰無仮説が正しい確率」 — p値は、帰無仮説が正しいとしたとき、このようなデータが得られる確率です。帰無仮説を前提とした条件付き確率であって、帰無仮説が正しい確率ではありません。
  • 誤解2:有意でない = 差がない — p値が有意水準以上であることは、差があるとは言えない(証拠不十分)という意味です。「差がない」と証明したわけではありません。帰無仮説を「採択」するという言い方は避けるべきです。
  • 誤解3:p値が小さいほど効果が大きい — p値の大きさは、効果の大きさを反映しません。標本サイズが大きければ、小さな効果でもp値は小さくなります。
  • 誤解4:有意水準0.05は絶対的な基準 — 0.05は慣習的な基準であって、分野や文脈によって適切な基準は異なります。
  • 誤解5:統計的に有意 = 実質的に重要 — 統計的有意差は、実質的な重要性を保証しません。効果量も合わせて評価する必要があります。

まとめ

検定には2つの誤り(第1種の過誤、第2種の過誤)があり、有意水準でバランスを取ります。第1種の過誤を減らすと第2種の過誤が増える、というトレードオフがあります。

「統計的に有意」とは、観測された差が偶然では説明しにくいという意味であり、差が大きいことや実質的に重要であることを意味しません。

p値と効果の大きさ(効果量)を合わせて評価することが重要です。