散布図

2つの変数の関係を「見る」ための基本ツール

難易度 Lv 2 / 10想定時間:約10

できるようになること


勉強時間を増やせば成績は上がるか

ある塾で、生徒10人の「1週間の自習時間」と「テストの得点」を調べたとします。

自習時間が長い生徒ほど得点が高い傾向がありそうですが、本当にそう言えるでしょうか。それとも、時間をかけても伸びない生徒もいるのでしょうか。

ヒストグラムや箱ひげ図は「1つの変数」の分布を見る道具でした。自習時間の分布と得点の分布はそれぞれ見られますが、2つの変数の間の関係は分かりません。2つの変数を同時に表示して関係を見る方法が必要です。


散布図とは

散布図(scatter plot)は、2つの変数の関係を視覚的に捉えるための図です。

横軸に一方の変数、縦軸にもう一方の変数をとり、各データを点として打ちます。1人(1件)のデータが1つの点に対応します。

通常、原因と考えられる変数やコントロールできる変数(例:自習時間)を横軸(xx 軸)に、その結果として変動する変数(例:得点)を縦軸(yy 軸)にとります。この習慣は回帰分析でも重要になります。

:10人の自習時間とテスト得点

生徒自習時間(時間)得点(点)
A240
B350
C455
D560
E658
F770
G875
H980
I1072
J1285

このデータを散布図にすると、全体として右上がりの傾向が見えます。自習時間が長いほど得点が高い傾向がありそうです。ただし、すべての点がきれいに直線上に並んでいるわけではありません。生徒Eは6時間勉強しても58点で、5時間のDとあまり変わりません。生徒Iは10時間で72点と、8時間のGとほぼ同じです。

自習時間とテスト得点の散布図

このように、散布図は全体的な傾向個々のばらつきを同時に確認できる道具です。


散布図の3つのパターン

散布図に現れる傾向には、大きく3つのパターンがあります。

正の関係・負の関係・関係なしの3パターン

正の関係(右上がり)

一方の値が増加すると、もう一方の値も増加する傾向があるパターンです。

負の関係(右下がり)

一方の値が増加すると、もう一方の値が減少する傾向があるパターンです。

関係が見えない

点が散らばっていて、明確な傾向が見えないパターンです。

ポイント

「関係が見えない」ことも重要な情報です。「この2つの変数には直線的な関係がなさそうだ」と分かれば、無理に関連づけようとする誤りを避けられます。


散布図を読むときの注意

散布図は直感的で便利ですが、見た目だけで判断すると誤ることがあります。

直線的でない関係

2つの変数に関係があっても、それが直線的とは限りません。

例えば、薬の投与量と効果の関係を考えます。少量では効果が薄く、適量で効果が最大になり、過剰投与では副作用で効果が下がることがあります。散布図にすると山型(逆U字)のパターンが見えますが、これは右上がりでも右下がりでもありません。

散布図を見るときは、「直線的か、曲線的か」をまず意識してください。

投与量と効果の非直線的な関係

外れ値の影響

大多数のデータは関係が見えないのに、1つの極端なデータが印象を変えてしまうことがあります。

例えば、さきほどの10人のデータに、さらに1人(20時間・100点)が加わったとします。この1点だけが他のデータから大きく離れており、散布図の右上がりの印象を強く引っ張ります。

散布図を見るときは、「全体の傾向」と「特定の点に引きずられていないか」を区別する必要があります。

外れ値なし vs 外れ値ありの比較

層別の必要性

全体で見ると関係が見えないのに、グループに分けると関係が見えることがあります。逆に、全体で見えた傾向が、グループ別では逆転することもあります。

例えば、「年齢と年収」の散布図を全社員で描くと、ばらつきが大きく傾向が見えにくいかもしれません。これは、20代の多い職種(例:エンジニア)と、40代の多い職種(例:管理職)で年収水準が大きく異なるため、グループをまたいだデータが傾向を打ち消し合ってしまうからです。職種別に色分けして描くと、同じ職種の中では「年齢が上がると年収も上がる」傾向が見えてきます。

全体 vs グループ別の傾向

ヒント

散布図を読むときは、全体を1つのグループとして見るだけでなく、属性(性別・地域・職種など)で分けて見ることも検討してください。


「見る」ことの限界

散布図はデータの関係を把握する出発点として非常に有効ですが、限界もあります。

主観に左右される。 同じ散布図を見ても、「傾向がある」と感じる人と「ばらついている」と感じる人がいます。点の数や軸のスケールによっても印象が変わります。

比較が難しい。 「AとBの関係」と「CとDの関係」のどちらが強いかを、2つの散布図を並べて判断するのは困難です。

こうした限界を克服するには、関係の強さや向きを数値で表す必要があります。


よくある誤解

注意
  • 誤解1:散布図で関係が見えたら因果関係がある — 散布図は「AとBが一緒に動く傾向がある」ことは示せますが、「AがBの原因である」とは言えません。アイスの売上と水難事故の件数は一緒に増減しますが、原因は気温です。
  • 誤解2:直線的な傾向がなければ関係がない — この単元で紹介した薬の投与量の例がまさにこのケースです。投与量と効果には明確な関係がありますが、山型(逆U字)なので直線的な傾向としては見えません。「関係がない」と結論する前に、散布図のパターンをよく観察してください。

まとめ

散布図は、2つの変数の関係を視覚的に捉えるための基本ツールです。横軸と縦軸にそれぞれの変数をとり、データを点として打つことで、全体的な傾向(正の関係・負の関係・関係なし)を確認できます。

ただし、散布図の読み取りは主観に左右されやすく、関係の「強さ」を客観的に比較するには限界があります。このように2つの変数が一緒に変動する関係性を、統計用語で相関(correlation)と呼びます。相関を数値で測る方法については、別の単元で詳しく学びます。