カイ二乗分布

正規分布の2乗の和が作る標本分布

難易度 Lv 3 / 10想定時間:約25

できるようになること


ばらつきを評価するための分布

工場で製品の重さを管理しているとします。平均値は規格通りでも、ばらつき(分散)が大きければ品質に問題があります。

「ばらつきが許容範囲内かどうか」を統計的に判定するには、標本分散がどのような分布に従うかを知る必要があります。ここで登場するのがカイ二乗分布(chi-squared distribution)です。

カイ二乗分布の定義

標準正規分布に従う独立な確率変数 Z1,Z2,,ZnZ_1, Z_2, \ldots, Z_nnn は正の整数)があるとき、

X=Z12+Z22++Zn2X = Z_1^2 + Z_2^2 + \cdots + Z_n^2

で定義される XX自由度 nn のカイ二乗分布に従います。

Xχ2(n)X \sim \chi^2(n)

つまり、カイ二乗分布は標準正規分布を2乗して足し合わせたものです。

自由度とは

パラメータ nn自由度(degrees of freedom)と呼びます。これは「制約条件のもとで独立に値を決定できる変数の数」を意味します。

たとえば自由度3のカイ二乗分布は、標準正規分布3個の2乗和です。自由度が大きくなるほど、足す項が増えるため期待値もばらつきも大きくなります。

カイ二乗分布が成り立つための前提

前提意味
1. 各変数が標準正規分布に従う2乗する前の変数が N(0,1)N(0,1) に従う
2. 各変数が独立ある変数の値が他の変数に影響しない

元のデータが正規分布に従わない場合、カイ二乗分布の結果は正確でなくなります。ただしサンプルサイズが大きい場合は、中心極限定理により近似的に使えることがあります。

分布の形

カイ二乗分布の形は自由度 nn によって変わります。

カイ二乗分布の確率密度関数:自由度による形の変化

2乗の和なので値は常に 00 以上であり、分布は右に裾が長い(正の歪度を持つ)形になります。

確率密度関数

自由度 nn のカイ二乗分布の確率密度関数は次の式で表されます(x>0x > 0)。

f(x)=12n/2Γ(n/2)xn/21ex/2f(x) = \frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2 - 1} e^{-x/2}

この式はガンマ分布 Gamma(α,λ)\mathrm{Gamma}(\alpha, \lambda)α=n/2\alpha = n/2, λ=1/2\lambda = 1/2 としたものと一致します。実際の計算では統計ソフトや数表を使うため、この式を直接計算する必要はありません。

期待値と分散

Xχ2(n)X \sim \chi^2(n) のとき、

導出

Zi2Z_i^2 について、E[Zi2]=1E[Z_i^2] = 1(標準正規分布の2次モーメント)です。

Var(Zi2)\mathrm{Var}(Z_i^2) は、標準正規分布の4次モーメント E[Zi4]=3E[Z_i^4] = 3 を使って、

Var(Zi2)=E[Zi4](E[Zi2])2=31=2\mathrm{Var}(Z_i^2) = E[Z_i^4] - (E[Z_i^2])^2 = 3 - 1 = 2

独立な nn 個の和なので、

E[X]=n1=nE[X] = n \cdot 1 = n

Var(X)=n2=2n\mathrm{Var}(X) = n \cdot 2 = 2n

:自由度10のカイ二乗分布なら、E[X]=10E[X] = 10Var(X)=20\mathrm{Var}(X) = 20(標準偏差 4.47\approx 4.47)です。

ガンマ分布との対応確認

χ2(n)=Gamma(n/2,1/2)\chi^2(n) = \mathrm{Gamma}(n/2, 1/2) なので、ガンマ分布の期待値 α/λ=(n/2)/(1/2)=n\alpha / \lambda = (n/2) / (1/2) = n、分散 α/λ2=(n/2)/(1/4)=2n\alpha / \lambda^2 = (n/2) / (1/4) = 2n と一致します。

標本分散との関係

母集団が正規分布 N(μ,σ2)N(\mu, \sigma^2) に従うとき、不偏分散

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2

を使った統計量

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

は自由度 n1n - 1 のカイ二乗分布に従います。ここで nn はサンプルサイズです。

自由度が nn ではなく n1n - 1 になるのは、偏差 XiXˉX_i - \bar{X} の合計が必ず i=1n(XiXˉ)=0\sum_{i=1}^{n}(X_i - \bar{X}) = 0 となるためです。n1n - 1 個の偏差が決まれば残り1個は自動的に決まるので、独立に動ける偏差は n1n - 1 個になります。

この関係は、母分散の区間推定や検定の基盤となります。

他の分布との関係

まとめ

カイ二乗分布 χ2(n)\chi^2(n) は、標準正規分布 nn 個の2乗の和が従う分布です。

期待値は nn、分散は 2n2n で、自由度が大きくなるほど山型になり正規分布に近づきます。

母分散の推定・検定の基盤となる重要な分布で、不偏分散との関係 (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) を通じて実際の統計分析で使われます。

t分布・F分布もカイ二乗分布を土台に定義されており、次の単元でその関係を確認します。