仮説検定の考え方

偶然か意味があるかを統計的に判断する仮説検定の基本的な論理と手順

難易度 Lv 4 / 10想定時間:約20

できるようになること


偶然か、意味があるか

新しい勉強法を100人の学生に試したら、従来の方法と比べて平均点が5点上がりました。

これは「新しい勉強法に効果がある」証拠でしょうか。それとも「たまたま5点上がっただけ」でしょうか。

仮説検定は、この「偶然か、意味があるか」を統計的に判断する方法です。


仮説検定とは何か

仮説検定(hypothesis testing)は、データに基づいて、ある仮説(帰無仮説)を否定する十分な証拠があるかどうかを確率的に評価する方法です。

推定が「母数がどれくらいか」を答える方法だったのに対し、検定は「ある主張を支持する証拠があるか」を判断します。

検定が答える問いの例:

検定は、これらの問いに「帰無仮説を棄却する/棄却できない」という形で答えます。


帰無仮説と対立仮説

仮説検定では、2つの仮説を立てます。

帰無仮説(H₀

帰無仮説(null hypothesis)は、「差がない」「効果がない」という、否定したい仮説です。

例:

帰無仮説は、記号で H₀ と書きます。

対立仮説(H₁

対立仮説(alternative hypothesis)は、研究目的に照らして事前に設定する仮説です。「差がある」「効果がある」という、支持したい主張を表します。

例(両側検定):

例(片側検定):

対立仮説は、記号で H₁ または Hₐ と書きます。


検定の考え方:背理法的アプローチ

仮説検定は、数学の背理法に似た論理を使います。

  1. まず「効果がない(帰無仮説)」と仮定する
  2. その仮定のもとで、観測されたデータが起こる確率を計算する
  3. もし確率が非常に小さければ、「効果がない」という仮定は疑わしい
  4. したがって、「効果がある(対立仮説)」を支持する

「偶然だとしたら、こんな結果は起こりにくい」という論法です。

ポイント

検定は、対立仮説を直接証明するものではありません。帰無仮説が疑わしいことを示すことで、間接的に対立仮説を支持します。


p値の意味

検定の核心にあるのが p値(p-value)です。

p値の定義

p値は、帰無仮説が正しいとしたとき、観測されたデータまたはそれより極端なデータが得られる確率です。

「それより極端」の方向は、対立仮説により決まります(片側検定なら片側、両側検定なら両側)。

言い換えると:

p値の解釈


有意水準と判定

p値を使って判定するための基準が有意水準です。

有意水準

有意水準(significance level)は、「これより小さければ帰無仮説を棄却する」という基準の確率です。

記号で α(アルファ)と書きます。

一般的な有意水準:

0.05は慣習的な基準であって、絶対的なものではありません。分野によっては、第1種の過誤のコストが異なるため、基準も変わります。

判定のルール

p値 < α のとき:

p値 ≥ α のとき:


検定の手順

仮説検定は、次のステップで進めます。

ステップ1:仮説を立てる(事前に)

100人を無作為に2群に分け、片方に新しい勉強法、もう片方に従来法を実施するとします。

※「上がる」を主張したいので片側検定にします。

ステップ2:有意水準を決める

α = 0.05 とする。

ステップ3:データを集める

新しい勉強法群と従来法群の平均点の差を計算します。

ステップ4:検定統計量を計算する

標本平均の差を、その標準誤差(標本平均のばらつきの大きさ)で割った値を計算します。これを t統計量(平均との差を「ゆらぎの単位」で測った値)といいます。

ステップ5:確率分布への当てはめ

帰無仮説が正しいと仮定した場合、その検定統計量がどのような確率分布(t分布や正規分布など)に従うかを考えます。

ステップ6:p値を計算する

その分布において、計算した統計量以上の極端な値が出る確率(p値)を求めます。

ステップ7:判定する


まとめ

仮説検定は、データに基づいて、帰無仮説を否定する十分な証拠があるかどうかを確率的に評価する方法です。

帰無仮説(効果がない)と対立仮説(効果がある)を事前に立て、帰無仮説のもとでデータが起こる確率(p値)を計算します。p値が有意水準より小さければ、帰無仮説を棄却し、「統計的に有意差が認められる」と判定します。

次の単元では、検定における2つの誤りや、統計的有意差の正しい解釈について学びます。