相関係数

2つの変数の関係の「強さ」を比較可能にする

難易度 Lv 3 / 10想定時間:約15

できるようになること


どちらの関係が強いか

ある会社で、マーケティング部が2つの分析結果を報告しました。

さて、どちらの関係が強いでしょうか。

実は、この問いには共分散だけでは答えられません。広告費は「万円」単位で大きな数値になりやすく、気温は「℃」単位で小さな数値になりやすいため、共分散の大小はスケールの違いを反映しているだけで、関係の強さを表しているわけではないのです。

共分散の弱点は「スケール(単位)に依存する」ことでした。この弱点を克服し、異なる変数の組み合わせでも関係の強さを比較できる指標が相関係数です。


共分散を標準偏差で割る

共分散がスケールに依存するのは、偏差にスケール(単位)が含まれているからです。

スケールを消すには、各変数のばらつきの大きさで割ればよいはずです。ばらつきの大きさを表す指標としてすでに学んだ標準偏差を使います。

rxy=sxysxsyr_{xy} = \frac{s_{xy}}{s_x \cdot s_y}

sxys_{xy}xxyy の共分散、sxs_xsys_y はそれぞれの標準偏差です。

これがピアソンの相関係数(Pearson's correlation coefficient)です。共分散を各変数の標準偏差で割ることで、単位が完全に消えます

また、標準偏差 sxs_xsys_y は常に正の値をとるため、相関係数 rxyr_{xy} の正負は分子である共分散 sxys_{xy} の正負と完全に一致します。

ヒント

なぜ単位が消えるのでしょうか。共分散の単位は「xx の単位 × yy の単位」(例:cm・kg)です。標準偏差 sxs_x の単位は「xx の単位」(cm)、sys_y の単位は「yy の単位」(kg)です。割り算すると、cm・kgcmkg=1\frac{\text{cm・kg}}{\text{cm} \cdot \text{kg}} = 1(無次元)になります。


計算例

共分散の単元で使った身長と体重のデータで相関係数を計算してみましょう。

すでに次の値が分かっています:

身長と体重の標準偏差を計算します。各偏差の二乗の平均が分散なので:

sx2=(10)2+(5)2+02+52+1025=2505=50sx=507.07(cm)s_x^2 = \frac{(-10)^2 + (-5)^2 + 0^2 + 5^2 + 10^2}{5} = \frac{250}{5} = 50 \quad \Rightarrow \quad s_x = \sqrt{50} \approx 7.07 \text{(cm)} sy2=(8.4)2+(5.4)2+0.62+4.62+8.625=70.56+29.16+0.36+21.16+73.965=195.25=39.04sy=39.046.25(kg)s_y^2 = \frac{(-8.4)^2 + (-5.4)^2 + 0.6^2 + 4.6^2 + 8.6^2}{5} = \frac{70.56 + 29.16 + 0.36 + 21.16 + 73.96}{5} = \frac{195.2}{5} = 39.04 \quad \Rightarrow \quad s_y = \sqrt{39.04} \approx 6.25 \text{(kg)}

これらを使って相関係数を求めます:

rxy=44.07.07×6.25=44.044.190.996r_{xy} = \frac{44.0}{7.07 \times 6.25} = \frac{44.0}{44.19} \approx 0.996

相関係数はほぼ 11 に近い値です。このデータでは身長と体重にきわめて強い正の直線的関係があることが分かります。

ヒント

この計算例は仕組みを理解するために簡略化した数値です。実際の人間集団で身長と体重の相関係数を調べると、0.60.60.80.8 程度になることが多いです。


相関係数は 1-1 から +1+1 の値をとる

相関係数は必ず 1rxy+1-1 \leq r_{xy} \leq +1 の範囲に収まります。これはコーシー・シュワルツの不等式によって数学的に保証されています。直感的には、「すべての点が完全に直線上に並ぶ」という極限の状態が +1+1(右上がり)または 1-1(右下がり)に対応すると理解してください。

相関係数の値意味
rxy=+1r_{xy} = +1完全な正の直線関係(すべての点が右上がりの直線上に並ぶ)
rxy=1r_{xy} = -1完全な負の直線関係(すべての点が右下がりの直線上に並ぶ)
rxy=0r_{xy} = 0直線的な関係がない
rxyr_{xy}+1+1 に近い強い正の関係
rxyr_{xy}1-1 に近い強い負の関係

実務では目安として次のように判断されることがあります。

rxy|r_{xy}| の範囲一般的な解釈
0.70.7 以上強い相関
0.40.40.70.7中程度の相関
0.20.20.40.4弱い相関
0.20.2 未満ほとんど相関なし
注意

この目安はあくまで「ざっくりした基準」です。分野によって「強い」「弱い」の基準は異なります。例えば心理学では r=0.5|r| = 0.5 でも「かなり強い」と見なされることがありますし、物理学では r=0.9|r| = 0.9 でも不十分とされることがあります。


相関係数の限界

相関係数は強力な指標ですが、万能ではありません。

直線的な関係しか測れない

相関係数は「直線的な関係の強さ」を測る指標です。曲線的な関係(U字型、指数関数的な増加など)があっても、相関係数は低くなることがあります。

例えば、散布図の単元で紹介した薬の投与量と効果の例(逆U字型)を考えてみましょう。投与量が少ないと効果も小さく、最適量で効果が最大になり、それを超えると効果が下がる——明確な関係があるのに、直線的ではないため相関係数は r0r \approx 0 になります。「関係なし」と判断するのは誤りで、「直線的な関係がない」だけです。

相関と因果は違う

相関係数が高いからといって、一方が他方の原因であるとは言えません。

ポイント

「相関関係は因果関係を意味しない」は、統計を実務で使う上で最も重要な原則の一つです(英語では "Correlation does not imply causation" と表現されます)。データから因果関係を主張するには、実験デザインやその他の分析手法が必要です。

外れ値に弱い

ピアソンの相関係数は外れ値の影響を受けやすい指標です。大多数のデータに関係がなくても、1つの極端な値が相関係数を大きく変えてしまうことがあります。

例えば、10人のデータで相関係数が r0.1r \approx 0.1(ほとんど関係なし)だったとします。ここに、1人だけ両方の値が極端に大きいデータが加わると、11人の相関係数が r0.75r \approx 0.75(強い相関)に跳ね上がることがあります。たった1点が全体の結論を変えてしまうのです。

外れ値の影響を受けにくい相関の指標として、スピアマンの順位相関係数(データの順位を使って計算する)などがあります。


まとめ

相関係数は、共分散を各変数の標準偏差で割ったもので、関係の「強さ」と「向き」を 1-1 から +1+1 の範囲で表します。

rxy=sxysxsyr_{xy} = \frac{s_{xy}}{s_x \cdot s_y}

共分散がスケールに依存していた問題を解決し、異なる変数の組み合わせでも関係の強さを比較できるようになりました。

ただし、相関係数は直線的な関係しか測れず、相関が高くても因果関係を意味しません。こうした限界を踏まえると、相関係数は万能の答えではなく補助的な数値として扱うのが適切です。実際の分析ではまず散布図で全体像を確認し、相関係数で関係の強さを数値化するという順序が基本になります。