箱ひげ図と分布の形

複数グループの分布を簡潔に比較する可視化ツール

難易度 Lv 3 / 10想定時間:約20

できるようになること


複数のグループを比較する

3つのクラスのテスト結果を比較したいとき、ヒストグラムを3つ並べると情報量が多すぎて比較しにくくなります。

平均と標準偏差だけでは、分布の形が見えません。

箱ひげ図なら、各クラスの分布の特徴を1つのグラフに簡潔にまとめ、比較できます。


箱ひげ図とは何か

箱ひげ図(box plot, box-and-whisker plot)は、データを4つの部分に分けて、分布の特徴を視覚化したグラフです。

箱ひげ図を理解するには、まず四分位数を知る必要があります。


四分位数とは何か

データを小さい順に並べたとき、データを4等分する3つの値を四分位数といいます。

第1四分位数(Q1)

第2四分位数(Q2)

第3四分位数(Q3)


四分位数の計算例

:11個のデータ

40, 50, 55, 60, 65, 70, 75, 80, 90, 95, 120

Q2(中央値):真ん中の値 = 70

Q1:中央値(70)を除いた下半分(40, 50, 55, 60, 65)の中央値 = 55

Q3:中央値(70)を除いた上半分(75, 80, 90, 95, 120)の中央値 = 90

ヒント

四分位数の計算方法は、ソフトウェアや流儀でわずかに異なることがあります。本単元では「中央値を除いた下半分・上半分の中央値」で説明します。


四分位範囲(IQR)

四分位範囲(Interquartile Range, IQR)は、第3四分位数と第1四分位数の差です:

IQR=Q3Q1\text{IQR} = Q3 - Q1

IQRは、データの中央50%がどれくらいの範囲に分布しているかを表します。

上の例では:

IQR=9055=35\text{IQR} = 90 - 55 = 35

IQRは外れ値の影響を受けにくいばらつきの指標です。標準偏差は外れ値の影響を強く受けますが、IQRは中央50%のデータだけを使うため、外れ値があっても安定しています。


箱ひげ図の構成要素

箱ひげ図は次の要素で構成されます:

箱(Box)

ひげ(Whiskers)

外れ値

箱ひげ図の構成要素


外れ値の検出ルール

箱ひげ図では、次のルールで外れ値を判定します:

下側の外れ値

<Q11.5×IQR\text{値} < Q1 - 1.5 \times \text{IQR}

上側の外れ値

>Q3+1.5×IQR\text{値} > Q3 + 1.5 \times \text{IQR}

この「1.5 × IQR」というルールは経験的に広く使われている基準です。

:Q1 = 55, Q3 = 90, IQR = 35のとき

上のデータセット(40, 50, 55, 60, 65, 70, 75, 80, 90, 95, 120)では、すべての値が 2.5〜142.5 の範囲に収まるため、外れ値は検出されません。

もしデータに150が含まれていた場合、150 > 142.5なので外れ値として扱われます。このとき、上側のひげは外れ値を除いた最大値(120)で止まり、150は点として個別にプロットされます。


箱ひげ図から読み取れること

箱ひげ図から、分布の特徴が読み取れます。

1. 中心の位置

箱の中の線(中央値)の位置を見ます。

2. ばらつきの大きさ

3. 歪み

箱とひげの対称性を見ます。

4. 外れ値の有無

ひげの外に点がプロットされていれば、外れ値があります。


複数グループの比較

箱ひげ図の最大の利点は、複数のグループを1つのグラフで比較できることです。

:3つのクラスのテスト結果を並べて表示

3クラスの箱ひげ図比較

この図から、各クラスの特徴を読み取ってみましょう。

クラスA

クラスB

クラスC

このように、箱ひげ図を横に並べることで、次のことが一目で分かります:

ヒストグラムでも比較できますが、箱ひげ図の方が簡潔で、多くのグループを比較しやすいです。


ヒストグラムとの使い分け

ヒストグラム箱ひげ図
目的分布の詳細な形を見る分布の要約を見る
情報量多い(細かい特徴も見える)少ない(主要な特徴のみ)
複数グループの比較やや難しい簡潔で比較しやすい
外れ値の検出視覚的にわかるルールで自動判定
向いている場面1-2グループの詳細分析3つ以上のグループ比較

ヒストグラムと箱ひげ図は補完的です。詳細を見たいときはヒストグラム、複数グループを比較したいときは箱ひげ図を使うと良いでしょう。

注意

箱ひげ図は要約なので、分布の山の数(多峰性)などの詳細な形状は見えにくい点に注意が必要です。


よくある誤解

注意

誤解1:箱の中にデータの50%が入る — 箱はQ1〜Q3という区間を表します。箱の中には常にデータ全体の約50%が含まれますが、点を重ね描きしない限り、箱の中に点が何個あるかは見えません。

誤解2:ひげは最小値・最大値まで伸びる — ひげは「外れ値を除いた」最小値・最大値までです。外れ値がある場合、ひげはその手前で止まり、外れ値は個別にプロットされます。

誤解3:1.5 × IQRは絶対的な基準 — 1.5という係数は経験的に広く使われていますが、絶対的なものではありません。ソフトウェアや分野によって、異なる係数(例:2.0や3.0)を使うこともあります。


まとめ

箱ひげ図は、四分位数(Q1, Q2, Q3)を使ってデータの分布を視覚化したグラフです。箱の長さ(IQR)はデータの中央50%の範囲を表し、外れ値の影響を受けにくいばらつきの指標です。

外れ値は「Q1 − 1.5 × IQR」未満、または「Q3 + 1.5 × IQR」超の値として検出されます。

箱ひげ図は複数グループの比較に適しており、ヒストグラムと補完的に使うことで、データの全体像をより正確に把握できます。