ヒストグラムの読み方
数値だけでは見えないデータの「温度感」と「形」を可視化する
できるようになること
- ヒストグラムの定義と棒グラフとの違いを説明できる
- ヒストグラムの形状から、分布の中心、ばらつき、歪み、山の数を読み取れる
- 階級幅の変更がグラフの見え方に与える影響を理解し、適切な幅を選べる
数値だけでは見えないもの
30人のテスト結果があります。平均70点、標準偏差15点。
この情報だけで、データの様子がイメージできるでしょうか。
実際には、60-80点に集中しているかもしれないし、55点と85点に二極化しているかもしれません。
数値だけでは見えない「分布の形」を見せてくれるのがヒストグラムです。
ヒストグラムとは何か
ヒストグラム(histogram)は、データを区間(階級)に分けて、各区間に入るデータの個数(度数)を表したグラフです。
例:30人のテスト結果
| 点数の範囲(階級) | 人数(度数) |
|---|---|
| 40点以上 50点未満 | 2人 |
| 50点以上 60点未満 | 5人 |
| 60点以上 70点未満 | 10人 |
| 70点以上 80点未満 | 8人 |
| 80点以上 90点未満 | 3人 |
| 90点以上 100点未満 | 2人 |
この表のデータを、横軸に階級、縦軸に度数をとり、隣り合う長方形に隙間を空けずに描画したグラフがヒストグラムです。

ヒストグラムの特徴
長方形が隙間なく並ぶ: ヒストグラムは、値の範囲を区間に区切って分布の形を表します。区間は連続して並ぶので、長方形は基本的に隙間なく描かれます(カテゴリを並べる棒グラフとは発想が異なります)。
面積が度数を表す: 多くのヒストグラムは、階級幅が同じときは「高さ=度数(人数)」で描けます。 一方、階級幅が異なるときは、高さを度数密度(度数 ÷ 階級幅)として描くのが基本で、このとき長方形の面積が度数に対応します。
ヒストグラムから読み取れること
ヒストグラムを見ると、数値だけでは分からない「分布の形」が見えてきます。
1. 中心の位置
どの辺りにデータが集中しているか、最頻値(度数が最大の階級)の位置を見ます。
- 最頻値が60-70点付近 → 中心は60-70点くらい
2. ばらつきの大きさ
ばらつきは、**どのくらい広い範囲にデータが分布しているか(横方向の広がり)**で見ます。
- 広い範囲に散っている → ばらつきが大きい(標準偏差が大きい傾向)
- 狭い範囲に集まっている → ばらつきが小さい(標準偏差が小さい傾向)
3. 歪み
グラフが左右対称か、どちらかに偏っているかを見ます。
- 左右対称 → 歪みなし
- 右に長い裾 → 右に歪んでいる
- 左に長い裾 → 左に歪んでいる
一般に、歪みが強いほど平均と中央値はずれやすくなります(ただし標本が小さい場合や外れ値がある場合は、見え方が揺れることがあります)。
4. 山の数
山(度数が極大となる場所)がいくつあるかを見ます。
- 山が1つ → 単峰性(データが1つのグループ)
- 山が2つ → 二峰性(データが2つのグループに分かれている可能性)
5. その他の特徴
- 外れ値:端に孤立した長方形が出ることがある(平均が影響を受けやすい)
- ギャップ:途中に長方形がほとんどない区間がある(別集団の可能性)
ヒストグラムと代表値の関係
- 左右対称な分布:平均・中央値・最頻値がほぼ同じ位置

- 右に歪んだ分布:最頻値(山の頂点)< 中央値 < 平均 (少数の高い値が平均を引き上げている)

- 左に歪んだ分布:平均 < 中央値 < 最頻値(山の頂点) (少数の低い値が平均を引き下げている)

階級幅の選び方
ヒストグラムの見え方は、階級幅(区間の幅)によって大きく変わります。
- 階級幅が狭すぎる:長方形が細かくなりすぎて、全体の形が見えにくい
- 階級幅が広すぎる:長方形が少なくなりすぎて、細かい特徴が消える
目安:
- データ数が少ない(30-50個):5-7階級
- データ数が中程度(50-200個):7-12階級
- データ数が多い(200個以上):10-20階級
実際には、いくつか試して「分布の特徴が見えやすい」階級幅を選びます。
よくある誤解
誤解1:ヒストグラムの高さ = 確率
高さは基本的に度数(人数)や相対度数です。
- 階級幅が同じで、縦軸が相対度数なら、高さは「その区間に入る割合」として読めます
- 階級幅が異なる場合は、度数密度で描き、面積で割合を比べます
- さらに全体の面積が1になるよう正規化した場合、面積がその区間の確率に対応します
誤解2:階級の境界値の扱い
60-70点という階級があるとき、「ちょうど70点」はどちらに入るでしょうか。 一般的には「以上、未満」で区切ります。
境界のルール(以上/未満、以上/以下)をどこかで明示することが重要です。グラフを見るときは凡例や注釈を必ず確認しましょう。
まとめ
ヒストグラムは、データを階級に分けて度数を長方形で表したグラフです。数値だけでは分からない中心の位置、ばらつきの大きさ、歪み、山の数、外れ値やギャップなど、「分布の形」を視覚的に読み取ることができます。
階級幅の選び方で見え方が変わるという特性を理解し、代表値と組み合わせてデータの全体像を把握することが重要です。