分散・標準偏差の意味

平均だけでは分からないデータの「ばらつき」を数値にする

難易度 Lv 3 / 10想定時間:約20

できるようになること


平均だけでは分からない「散らばり」

2つのクラスのテスト平均がどちらも70点でした。

クラスA:60, 65, 70, 75, 80点 クラスB:40, 50, 70, 90, 100点

同じ平均70点でも、全く違う様子です。クラスAは平均付近に集まっていますが、クラスBは大きく散らばっています。

この「ばらつき」を数値で表すのが分散(variance)と標準偏差(standard deviation)です。


データの分散とは何か

nn個のデータ x1,x2,,xnx_1, x_2, \ldots, x_n があり、その平均を xˉ\bar{x} とします。

分散は、各データと平均との差(平均との差を偏差といいます)の2乗の平均です:

s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2

s2s^2(エス2乗)と書きます。

ポイント

ここでは「手元のデータのばらつき」を表すために 1n\frac{1}{n} を使います。母分散を推定する目的では 1n1\frac{1}{n-1} を使う(不偏分散)ことがあり、推論統計の単元で扱います。


計算例:クラスAとクラスB

クラスA:60, 65, 70, 75, 80点(平均70点)

s2=(6070)2+(6570)2+(7070)2+(7570)2+(8070)25s^2 = \frac{(60-70)^2 + (65-70)^2 + (70-70)^2 + (75-70)^2 + (80-70)^2}{5} =100+25+0+25+1005=2505=50= \frac{100 + 25 + 0 + 25 + 100}{5} = \frac{250}{5} = 50

クラスB:40, 50, 70, 90, 100点(平均70点)

s2=(4070)2+(5070)2+(7070)2+(9070)2+(10070)25s^2 = \frac{(40-70)^2 + (50-70)^2 + (70-70)^2 + (90-70)^2 + (100-70)^2}{5} =900+400+0+400+9005=26005=520= \frac{900 + 400 + 0 + 400 + 900}{5} = \frac{2600}{5} = 520

クラスBの分散(520)はクラスAの分散(50)より大きく、ばらつきが大きいことが数値で確認できます。


標準偏差とは何か

分散には1つ問題があります。2乗しているため、元のデータと単位が変わってしまいます

テストの点数の単位は「点」ですが、分散の単位は「点²」になります。これでは直感的に解釈しにくい。

そこで分散の平方根を取り、単位を元に戻したものが標準偏差です:

s=s2s = \sqrt{s^2}

クラスAs=507.1s = \sqrt{50} \approx 7.1 \text{点}

クラスBs=52022.8s = \sqrt{520} \approx 22.8 \text{点}

標準偏差なら、元のデータと同じ単位(点)で「平均からどれくらいばらついているか」を表せます。


標準偏差の解釈

標準偏差は「データが平均からどれくらい離れているかの目安」です。

クラスAの標準偏差7.1点は「平均との差の大きさの目安が約7点」、クラスBの標準偏差22.8点は「平均との差の大きさの目安が約23点」という意味です。


確率分布の分散・標準偏差との違い

確率分布の分野でも分散と標準偏差が登場します。どちらも「ばらつき」を扱いますが、何のばらつきを対象にしているかが違います。

確率分布では、平均を μ\mu、分散を σ2\sigma^2、標準偏差を σ\sigma と書くことが多いです。また V[X]V[X] は確率変数 XX の分散を表す記号です。

確率分布の分散

データの分散

確率分布の分散データの分散
対象確率分布(理論)手元のデータ(現実)
記号σ2,V[X]\sigma^2, V[X]s2s^2
計算(xμ)2P(X=x)\sum (x-\mu)^2 \cdot P(X=x)1n(xixˉ)2\frac{1}{n}\sum (x_i - \bar{x})^2
意味理論上のばらつき観測されたばらつき
サイコロの期待値からのばらつき10回振った結果のばらつき

同じ「ばらつき」という概念を、理論(確率分布)とデータ(観測値)という異なる対象に適用していると考えると分かりやすいです。


分散・標準偏差の性質

1. すべて同じ値なら分散は0

すべてのデータが同じ値なら、ばらつきはないので分散は0です。 例:5人全員が70点 → s2=0s^2 = 0

2. 定数を足しても分散は変わらない

すべてのデータに同じ値を足しても、ばらつき具合は変わりません。全員に10点加点しても、分散・標準偏差は変わりません。

3. 定数倍すると分散は2乗倍

すべてのデータを aa 倍すると、分散は a2a^2 倍、標準偏差は aa 倍になります。


範囲との違い

ばらつきを表す指標として、範囲(最大値 − 最小値)もあります。

範囲は計算が簡単ですが、最大値・最小値だけで決まるという弱点があります。一方、標準偏差は全データを使う指標です。ただし、極端に大きい(小さい)値(外れ値)があると標準偏差も大きくなりやすい点には注意が必要です。


分散と標準偏差、どちらを使うか

分散

標準偏差

一般的には、実務では標準偏差を使い、理論計算では分散を使うことが多いです。


まとめ

分散 s2=1n(xixˉ)2s^2 = \frac{1}{n}\sum (x_i - \bar{x})^2 は、データのばらつきを表す指標です。

標準偏差 s=s2s = \sqrt{s^2} は、分散の平方根で、元のデータと同じ単位で解釈できます。

確率分布の分散(理論)とデータの分散(現実)は、どちらもばらつきを扱いますが、何のばらつきを対象にしているかが違います。

標準偏差は「平均からどれくらい離れているかの目安」として、実務でよく使われます。