散布図
2つの変数の関係を「見る」ための基本ツール
できるようになること
- 散布図の作り方と読み方を理解し、データの傾向を読み取れる
- 散布図だけでは判断できないケース(非直線、外れ値、層別)を知っている
- 「見る」ことの限界を理解し、数値化の必要性を説明できる
勉強時間を増やせば成績は上がるか
ある塾で、生徒10人の「1週間の自習時間」と「テストの得点」を調べたとします。
自習時間が長い生徒ほど得点が高い傾向がありそうですが、本当にそう言えるでしょうか。それとも、時間をかけても伸びない生徒もいるのでしょうか。
ヒストグラムや箱ひげ図は「1つの変数」の分布を見る道具でした。自習時間の分布と得点の分布はそれぞれ見られますが、2つの変数の間の関係は分かりません。2つの変数を同時に表示して関係を見る方法が必要です。
散布図とは
散布図(scatter plot)は、2つの変数の関係を視覚的に捉えるための図です。
横軸に一方の変数、縦軸にもう一方の変数をとり、各データを点として打ちます。1人(1件)のデータが1つの点に対応します。
通常、原因と考えられる変数やコントロールできる変数(例:自習時間)を横軸( 軸)に、その結果として変動する変数(例:得点)を縦軸( 軸)にとります。この習慣は回帰分析でも重要になります。
例:10人の自習時間とテスト得点
| 生徒 | 自習時間(時間) | 得点(点) |
|---|---|---|
| A | 2 | 40 |
| B | 3 | 50 |
| C | 4 | 55 |
| D | 5 | 60 |
| E | 6 | 58 |
| F | 7 | 70 |
| G | 8 | 75 |
| H | 9 | 80 |
| I | 10 | 72 |
| J | 12 | 85 |
このデータを散布図にすると、全体として右上がりの傾向が見えます。自習時間が長いほど得点が高い傾向がありそうです。ただし、すべての点がきれいに直線上に並んでいるわけではありません。生徒Eは6時間勉強しても58点で、5時間のDとあまり変わりません。生徒Iは10時間で72点と、8時間のGとほぼ同じです。

このように、散布図は全体的な傾向と個々のばらつきを同時に確認できる道具です。
散布図の3つのパターン
散布図に現れる傾向には、大きく3つのパターンがあります。

正の関係(右上がり)
一方の値が増加すると、もう一方の値も増加する傾向があるパターンです。
- 自習時間と得点
- 広告費と売上
- 建物の面積と家賃
負の関係(右下がり)
一方の値が増加すると、もう一方の値が減少する傾向があるパターンです。
- 気温と暖房費
- 築年数と物件価格
- 通勤距離と睡眠時間
関係が見えない
点が散らばっていて、明確な傾向が見えないパターンです。
- 身長と数学の成績
- 靴のサイズと年収
「関係が見えない」ことも重要な情報です。「この2つの変数には直線的な関係がなさそうだ」と分かれば、無理に関連づけようとする誤りを避けられます。
散布図を読むときの注意
散布図は直感的で便利ですが、見た目だけで判断すると誤ることがあります。
直線的でない関係
2つの変数に関係があっても、それが直線的とは限りません。
例えば、薬の投与量と効果の関係を考えます。少量では効果が薄く、適量で効果が最大になり、過剰投与では副作用で効果が下がることがあります。散布図にすると山型(逆U字)のパターンが見えますが、これは右上がりでも右下がりでもありません。
散布図を見るときは、「直線的か、曲線的か」をまず意識してください。

外れ値の影響
大多数のデータは関係が見えないのに、1つの極端なデータが印象を変えてしまうことがあります。
例えば、さきほどの10人のデータに、さらに1人(20時間・100点)が加わったとします。この1点だけが他のデータから大きく離れており、散布図の右上がりの印象を強く引っ張ります。
散布図を見るときは、「全体の傾向」と「特定の点に引きずられていないか」を区別する必要があります。

層別の必要性
全体で見ると関係が見えないのに、グループに分けると関係が見えることがあります。逆に、全体で見えた傾向が、グループ別では逆転することもあります。
例えば、「年齢と年収」の散布図を全社員で描くと、ばらつきが大きく傾向が見えにくいかもしれません。これは、20代の多い職種(例:エンジニア)と、40代の多い職種(例:管理職)で年収水準が大きく異なるため、グループをまたいだデータが傾向を打ち消し合ってしまうからです。職種別に色分けして描くと、同じ職種の中では「年齢が上がると年収も上がる」傾向が見えてきます。

散布図を読むときは、全体を1つのグループとして見るだけでなく、属性(性別・地域・職種など)で分けて見ることも検討してください。
「見る」ことの限界
散布図はデータの関係を把握する出発点として非常に有効ですが、限界もあります。
主観に左右される。 同じ散布図を見ても、「傾向がある」と感じる人と「ばらついている」と感じる人がいます。点の数や軸のスケールによっても印象が変わります。
比較が難しい。 「AとBの関係」と「CとDの関係」のどちらが強いかを、2つの散布図を並べて判断するのは困難です。
こうした限界を克服するには、関係の強さや向きを数値で表す必要があります。
よくある誤解
- 誤解1:散布図で関係が見えたら因果関係がある — 散布図は「AとBが一緒に動く傾向がある」ことは示せますが、「AがBの原因である」とは言えません。アイスの売上と水難事故の件数は一緒に増減しますが、原因は気温です。
- 誤解2:直線的な傾向がなければ関係がない — この単元で紹介した薬の投与量の例がまさにこのケースです。投与量と効果には明確な関係がありますが、山型(逆U字)なので直線的な傾向としては見えません。「関係がない」と結論する前に、散布図のパターンをよく観察してください。
まとめ
散布図は、2つの変数の関係を視覚的に捉えるための基本ツールです。横軸と縦軸にそれぞれの変数をとり、データを点として打つことで、全体的な傾向(正の関係・負の関係・関係なし)を確認できます。
ただし、散布図の読み取りは主観に左右されやすく、関係の「強さ」を客観的に比較するには限界があります。このように2つの変数が一緒に変動する関係性を、統計用語で相関(correlation)と呼びます。相関を数値で測る方法については、別の単元で詳しく学びます。