F分布

2つの集団のばらつきを比較するための分布

難易度 Lv 3 / 10想定時間:約25

できるようになること


2つのばらつきを比べたい

工場で製品の重さを管理している場面を考えます。製造ラインAとラインBがあり、それぞれの製品の重さにばらつきがあります。

「ラインAの方がラインBよりばらつきが大きいのでは?」という疑問を統計的に検証するには、2つの集団の分散を比較する方法が必要です。

カイ二乗分布の単元では、1つの集団の不偏分散 S2S^2 と母分散 σ2\sigma^2 の関係を学びました。

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

では、2つの集団の分散を比較するにはどうすればよいでしょうか。自然な発想は「分散の比」を取ることです。たとえばラインAの不偏分散が12、ラインBの不偏分散が4なら、比は 12/4=312/4 = 3 です。この「3」が偶然生じうる範囲なのか、それとも本当にばらつきに差があるのかを評価するための分布が必要になります。

この「分散の比」が従う分布が、F分布(F-distribution)です。

F分布の定義

Uχ2(d1)U \sim \chi^2(d_1)Vχ2(d2)V \sim \chi^2(d_2) が独立のとき、

F=U/d1V/d2F = \frac{U / d_1}{V / d_2}

で定義される FF自由度 (d1,d2)(d_1, d_2) のF分布に従います。

FF(d1,d2)F \sim F(d_1, d_2)

つまりF分布は、2つの独立なカイ二乗分布をそれぞれの自由度で割った比です。

補足

F分布は統計学者ロナルド・フィッシャー(Ronald Fisher)に敬意を表し、ジョージ・スネデカーが名づけました。分散分析(ANOVA: Analysis of Variance)の基盤として、実験計画法などで広く使われています。

F分布が成り立つための前提

前提意味
1. 各母集団が正規分布に従う2つの母集団がともに正規分布に従う
2. 2つの標本が独立標本1と標本2が互いに影響しない
3. 各標本内のデータが独立各標本のデータが互いに独立に抽出されている

母集団が正規分布に従わない場合、F検定の結果は信頼できません。F検定は正規性からの逸脱に敏感であり、この点はt検定よりも注意が必要です。

分布の形

F分布は自由度の組 (d1,d2)(d_1, d_2) によって形が変わります。

F分布の確率密度関数:自由度による形の変化

2つの母分散が等しいとき、分散の比は1に近い値を取りやすくなります。F分布の最頻値(ピーク)は1よりわずかに小さい位置にありますが、期待値は1よりわずかに大きくなります。この非対称性が、正の歪度を持つF分布の特徴です。

分散比検定との関係

2つの正規母集団から独立に標本を取ったとき、

帰無仮説 σ12=σ22\sigma_1^2 = \sigma_2^2 のもとで、

F=S12S22F(n11,  n21)F = \frac{S_1^2}{S_2^2} \sim F(n_1 - 1,\; n_2 - 1)

は自由度 (n11,n21)(n_1 - 1, n_2 - 1) のF分布に従います。

導出

2つの母集団がそれぞれ正規分布に従うと仮定すると、カイ二乗分布の単元で学んだ関係

(n11)S12σ12χ2(n11),(n21)S22σ22χ2(n21)\frac{(n_1 - 1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1 - 1), \quad \frac{(n_2 - 1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2 - 1)

が成り立ちます。F分布の定義に当てはめると、

F=(n11)S12σ12  /  (n11)(n21)S22σ22  /  (n21)=S12/σ12S22/σ22F = \frac{\dfrac{(n_1 - 1)S_1^2}{\sigma_1^2} \;/\; (n_1 - 1)}{\dfrac{(n_2 - 1)S_2^2}{\sigma_2^2} \;/\; (n_2 - 1)} = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}

分子・分母の (n11)(n_1 - 1)(n21)(n_2 - 1) がそれぞれ約分されて消えます。

帰無仮説 σ12=σ22\sigma_1^2 = \sigma_2^2 のもとでは σ12/σ22=1\sigma_1^2 / \sigma_2^2 = 1 なので、

F=S12S22F = \frac{S_1^2}{S_2^2}

が得られます。

期待値と分散

FF(d1,d2)F \sim F(d_1, d_2) のとき、

期待値は分子の自由度 d1d_1 に依存せず、d2d_2 が大きくなると1に近づきます。これは「2つの集団のばらつきが等しいなら、分散の比は1に近くなるはず」という直感と一致します。

F(10,30)F(10, 30) のとき、E[F]=30/281.07E[F] = 30/28 \approx 1.07 です。分散の比なので、期待値は1に近い値です。

補足

参考:確率密度関数

自由度 (d1,d2)(d_1, d_2) のF分布の確率密度関数は次の式で表されます(x>0x > 0)。

f(x)=1B ⁣(d12,d22)(d1d2)d1/2xd1/21(1+d1d2x)(d1+d2)/2f(x) = \frac{1}{B\!\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right)^{d_1/2} x^{d_1/2 - 1} \left(1 + \frac{d_1}{d_2} x\right)^{-(d_1 + d_2)/2}

ここで B(a,b)B(a, b) はベータ関数です。実際の計算では統計ソフトやF分布表を使うため、この式を直接計算する必要はありません。

他の分布との関係

よくある誤解

注意

「F分布の自由度は入れ替えても同じ」

F(d1,d2)F(d_1, d_2)F(d2,d1)F(d_2, d_1)異なる分布です。分子と分母を入れ替えると、FF 値の逆数 1/F1/F が得られ、自由度も入れ替わります。

FF(d1,d2)1FF(d2,d1)F \sim F(d_1, d_2) \quad \Longrightarrow \quad \frac{1}{F} \sim F(d_2, d_1)

この誤りが起きやすいのは、F分布表が上側確率(片側)のみ掲載されていることが多く、下側の臨界値を求める際に逆数と自由度の入れ替えを利用するためです。どちらの分散を分子に置いたかに注意してください。

まとめ

F分布 F(d1,d2)F(d_1, d_2) は、2つの独立なカイ二乗分布の比として定義される分布です。

F=U/d1V/d2F = \frac{U / d_1}{V / d_2}

2つの正規母集団の分散が等しいかを検定するとき、不偏分散の比 S12/S22S_1^2 / S_2^2 がF分布に従うことを利用します。

t分布の2乗がF分布になるという関係は、カイ二乗分布・t分布・F分布が1つの体系をなしていることを示しています。F分布は分散比の検定だけでなく、分散分析(ANOVA)や回帰分析の有意性検定でも中心的な役割を果たします。