箱ひげ図と分布の形
複数グループの分布を簡潔に比較する可視化ツール
できるようになること
- 四分位数(Q1, Q2, Q3)と四分位範囲(IQR)の意味を説明できる
- 箱ひげ図の構成要素を正しく読み取り、外れ値を検出できる
- 箱ひげ図を使って複数グループの分布を比較できる
複数のグループを比較する
3つのクラスのテスト結果を比較したいとき、ヒストグラムを3つ並べると情報量が多すぎて比較しにくくなります。
平均と標準偏差だけでは、分布の形が見えません。
箱ひげ図なら、各クラスの分布の特徴を1つのグラフに簡潔にまとめ、比較できます。
箱ひげ図とは何か
箱ひげ図(box plot, box-and-whisker plot)は、データを4つの部分に分けて、分布の特徴を視覚化したグラフです。
箱ひげ図を理解するには、まず四分位数を知る必要があります。
四分位数とは何か
データを小さい順に並べたとき、データを4等分する3つの値を四分位数といいます。
第1四分位数(Q1):
- 小さい方から25%の位置にある値
- データの下位25%と上位75%を分ける
第2四分位数(Q2):
- 小さい方から50%の位置にある値
- 中央値と同じ
第3四分位数(Q3):
- 小さい方から75%の位置にある値
- データの下位75%と上位25%を分ける
四分位数の計算例
例:11個のデータ
40, 50, 55, 60, 65, 70, 75, 80, 90, 95, 120
Q2(中央値):真ん中の値 = 70
Q1:中央値(70)を除いた下半分(40, 50, 55, 60, 65)の中央値 = 55
Q3:中央値(70)を除いた上半分(75, 80, 90, 95, 120)の中央値 = 90
四分位数の計算方法は、ソフトウェアや流儀でわずかに異なることがあります。本単元では「中央値を除いた下半分・上半分の中央値」で説明します。
四分位範囲(IQR)
四分位範囲(Interquartile Range, IQR)は、第3四分位数と第1四分位数の差です:
IQRは、データの中央50%がどれくらいの範囲に分布しているかを表します。
上の例では:
IQRは外れ値の影響を受けにくいばらつきの指標です。標準偏差は外れ値の影響を強く受けますが、IQRは中央50%のデータだけを使うため、外れ値があっても安定しています。
箱ひげ図の構成要素
箱ひげ図は次の要素で構成されます:
箱(Box):
- Q1からQ3までの範囲
- データの中央50%が入る範囲
- 箱の中の線が中央値(Q2)
ひげ(Whiskers):
- Q1 − 1.5 × IQR 以上、Q3 + 1.5 × IQR 以下に入るデータの範囲で、最小・最大の点まで伸びる
- 外側は外れ値として点で描かれる
外れ値:
- ひげの外にある点
- 個別にプロットされる

外れ値の検出ルール
箱ひげ図では、次のルールで外れ値を判定します:
下側の外れ値:
上側の外れ値:
この「1.5 × IQR」というルールは経験的に広く使われている基準です。
例:Q1 = 55, Q3 = 90, IQR = 35のとき
- 下側の境界:
- 上側の境界:
上のデータセット(40, 50, 55, 60, 65, 70, 75, 80, 90, 95, 120)では、すべての値が 2.5〜142.5 の範囲に収まるため、外れ値は検出されません。
もしデータに150が含まれていた場合、150 > 142.5なので外れ値として扱われます。このとき、上側のひげは外れ値を除いた最大値(120)で止まり、150は点として個別にプロットされます。
箱ひげ図から読み取れること
箱ひげ図から、分布の特徴が読み取れます。
1. 中心の位置
箱の中の線(中央値)の位置を見ます。
2. ばらつきの大きさ
- 箱の長さ(Q1〜Q3の距離)が大きい → 中央50%のばらつきが大きい
- 箱の長さが小さい → 中央50%のばらつきが小さい
- ひげの長さ → 全体の範囲
3. 歪み
箱とひげの対称性を見ます。
- 中央値が箱の中央にあり、ひげも同じ長さ → 左右対称
- 中央値が箱の下寄り、上のひげが長い → 右に歪んでいる
- 中央値が箱の上寄り、下のひげが長い → 左に歪んでいる
4. 外れ値の有無
ひげの外に点がプロットされていれば、外れ値があります。
複数グループの比較
箱ひげ図の最大の利点は、複数のグループを1つのグラフで比較できることです。
例:3つのクラスのテスト結果を並べて表示

この図から、各クラスの特徴を読み取ってみましょう。
クラスA:
- 中央値は約70で、箱の幅はやや広い → ばらつきが中程度
- 箱とひげがほぼ左右対称 → 特定の方向への偏りがない
- 外れ値なし
クラスB:
- 中央値は約70でクラスAとほぼ同じだが、箱がやや短い
- 上側にひげの外の点(外れ値)がある → 一部の生徒が飛び抜けて高得点を取っている
- ひげの範囲はクラスAより狭い → 外れ値を除けばばらつきは小さい
クラスC:
- 中央値が約80で3クラス中最も高い → 全体的に成績が良い
- 下側にひげの外の点(外れ値)が2つある → 大半は高得点だが、極端に低い点数の生徒がいる
- 箱は比較的短い → 中央50%の成績は安定している
このように、箱ひげ図を横に並べることで、次のことが一目で分かります:
- どのクラスの中央値が高いか
- どのクラスのばらつきが大きいか
- どのクラスに外れ値があるか
- 分布の形の違い(左右対称か、歪んでいるか)
ヒストグラムでも比較できますが、箱ひげ図の方が簡潔で、多くのグループを比較しやすいです。
ヒストグラムとの使い分け
| ヒストグラム | 箱ひげ図 | |
|---|---|---|
| 目的 | 分布の詳細な形を見る | 分布の要約を見る |
| 情報量 | 多い(細かい特徴も見える) | 少ない(主要な特徴のみ) |
| 複数グループの比較 | やや難しい | 簡潔で比較しやすい |
| 外れ値の検出 | 視覚的にわかる | ルールで自動判定 |
| 向いている場面 | 1-2グループの詳細分析 | 3つ以上のグループ比較 |
ヒストグラムと箱ひげ図は補完的です。詳細を見たいときはヒストグラム、複数グループを比較したいときは箱ひげ図を使うと良いでしょう。
箱ひげ図は要約なので、分布の山の数(多峰性)などの詳細な形状は見えにくい点に注意が必要です。
よくある誤解
誤解1:箱の中にデータの50%が入る — 箱はQ1〜Q3という区間を表します。箱の中には常にデータ全体の約50%が含まれますが、点を重ね描きしない限り、箱の中に点が何個あるかは見えません。
誤解2:ひげは最小値・最大値まで伸びる — ひげは「外れ値を除いた」最小値・最大値までです。外れ値がある場合、ひげはその手前で止まり、外れ値は個別にプロットされます。
誤解3:1.5 × IQRは絶対的な基準 — 1.5という係数は経験的に広く使われていますが、絶対的なものではありません。ソフトウェアや分野によって、異なる係数(例:2.0や3.0)を使うこともあります。
まとめ
箱ひげ図は、四分位数(Q1, Q2, Q3)を使ってデータの分布を視覚化したグラフです。箱の長さ(IQR)はデータの中央50%の範囲を表し、外れ値の影響を受けにくいばらつきの指標です。
外れ値は「Q1 − 1.5 × IQR」未満、または「Q3 + 1.5 × IQR」超の値として検出されます。
箱ひげ図は複数グループの比較に適しており、ヒストグラムと補完的に使うことで、データの全体像をより正確に把握できます。