相関係数
2つの変数の関係の「強さ」を比較可能にする
できるようになること
- 相関係数の定義と、なぜ共分散を標準偏差で割るのかを説明できる
- 相関係数の値( 〜 )から関係の強さと向きを判断できる
- 相関係数の主な限界(直線性の仮定・相関≠因果・外れ値への感度)を説明できる
どちらの関係が強いか
ある会社で、マーケティング部が2つの分析結果を報告しました。
- 「広告費と売上」の共分散は 50,000
- 「気温とアイスの売上」の共分散は 320
さて、どちらの関係が強いでしょうか。
実は、この問いには共分散だけでは答えられません。広告費は「万円」単位で大きな数値になりやすく、気温は「℃」単位で小さな数値になりやすいため、共分散の大小はスケールの違いを反映しているだけで、関係の強さを表しているわけではないのです。
共分散の弱点は「スケール(単位)に依存する」ことでした。この弱点を克服し、異なる変数の組み合わせでも関係の強さを比較できる指標が相関係数です。
共分散を標準偏差で割る
共分散がスケールに依存するのは、偏差にスケール(単位)が含まれているからです。
スケールを消すには、各変数のばらつきの大きさで割ればよいはずです。ばらつきの大きさを表す指標としてすでに学んだ標準偏差を使います。
は と の共分散、 と はそれぞれの標準偏差です。
これがピアソンの相関係数(Pearson's correlation coefficient)です。共分散を各変数の標準偏差で割ることで、単位が完全に消えます。
また、標準偏差 と は常に正の値をとるため、相関係数 の正負は分子である共分散 の正負と完全に一致します。
なぜ単位が消えるのでしょうか。共分散の単位は「 の単位 × の単位」(例:cm・kg)です。標準偏差 の単位は「 の単位」(cm)、 の単位は「 の単位」(kg)です。割り算すると、(無次元)になります。
計算例
共分散の単元で使った身長と体重のデータで相関係数を計算してみましょう。
すでに次の値が分かっています:
- 共分散:
身長と体重の標準偏差を計算します。各偏差の二乗の平均が分散なので:
これらを使って相関係数を求めます:
相関係数はほぼ に近い値です。このデータでは身長と体重にきわめて強い正の直線的関係があることが分かります。
この計算例は仕組みを理解するために簡略化した数値です。実際の人間集団で身長と体重の相関係数を調べると、〜 程度になることが多いです。
相関係数は から の値をとる
相関係数は必ず の範囲に収まります。これはコーシー・シュワルツの不等式によって数学的に保証されています。直感的には、「すべての点が完全に直線上に並ぶ」という極限の状態が (右上がり)または (右下がり)に対応すると理解してください。
| 相関係数の値 | 意味 |
|---|---|
| 完全な正の直線関係(すべての点が右上がりの直線上に並ぶ) | |
| 完全な負の直線関係(すべての点が右下がりの直線上に並ぶ) | |
| 直線的な関係がない | |
| が に近い | 強い正の関係 |
| が に近い | 強い負の関係 |
実務では目安として次のように判断されることがあります。
| の範囲 | 一般的な解釈 |
|---|---|
| 以上 | 強い相関 |
| 〜 | 中程度の相関 |
| 〜 | 弱い相関 |
| 未満 | ほとんど相関なし |
この目安はあくまで「ざっくりした基準」です。分野によって「強い」「弱い」の基準は異なります。例えば心理学では でも「かなり強い」と見なされることがありますし、物理学では でも不十分とされることがあります。
相関係数の限界
相関係数は強力な指標ですが、万能ではありません。
直線的な関係しか測れない
相関係数は「直線的な関係の強さ」を測る指標です。曲線的な関係(U字型、指数関数的な増加など)があっても、相関係数は低くなることがあります。
例えば、散布図の単元で紹介した薬の投与量と効果の例(逆U字型)を考えてみましょう。投与量が少ないと効果も小さく、最適量で効果が最大になり、それを超えると効果が下がる——明確な関係があるのに、直線的ではないため相関係数は になります。「関係なし」と判断するのは誤りで、「直線的な関係がない」だけです。
相関と因果は違う
相関係数が高いからといって、一方が他方の原因であるとは言えません。
-
アイスの売上と水難事故の件数は高い正の相関がありますが、アイスが水難事故を引き起こすわけではありません。背後にある気温が共通の原因です。このように、見かけ上の相関を生み出す隠れた変数を交絡変数と呼びます。
-
消防車の出動台数と火災の被害額にも正の相関がありますが、消防車が被害を増やしているわけではありません。大きな火災ほど消防車が多く出動し、被害額も大きくなるだけです。
「相関関係は因果関係を意味しない」は、統計を実務で使う上で最も重要な原則の一つです(英語では "Correlation does not imply causation" と表現されます)。データから因果関係を主張するには、実験デザインやその他の分析手法が必要です。
外れ値に弱い
ピアソンの相関係数は外れ値の影響を受けやすい指標です。大多数のデータに関係がなくても、1つの極端な値が相関係数を大きく変えてしまうことがあります。
例えば、10人のデータで相関係数が (ほとんど関係なし)だったとします。ここに、1人だけ両方の値が極端に大きいデータが加わると、11人の相関係数が (強い相関)に跳ね上がることがあります。たった1点が全体の結論を変えてしまうのです。
外れ値の影響を受けにくい相関の指標として、スピアマンの順位相関係数(データの順位を使って計算する)などがあります。
まとめ
相関係数は、共分散を各変数の標準偏差で割ったもので、関係の「強さ」と「向き」を から の範囲で表します。
共分散がスケールに依存していた問題を解決し、異なる変数の組み合わせでも関係の強さを比較できるようになりました。
ただし、相関係数は直線的な関係しか測れず、相関が高くても因果関係を意味しません。こうした限界を踏まえると、相関係数は万能の答えではなく補助的な数値として扱うのが適切です。実際の分析ではまず散布図で全体像を確認し、相関係数で関係の強さを数値化するという順序が基本になります。