中央値と代表値のズレ

外れ値に強い指標を知り、分布の「歪み」を読み解く

難易度 Lv 3 / 10想定時間:約20

できるようになること


平均では見えなかった「真ん中」

平均の単元で、5人の年収(万円)が200, 220, 250, 280, 5000のとき、平均は1190万円になることを見ました。

では、この5人の「真ん中」はどこでしょうか。データを小さい順に並べると、3番目は250万円です。

これが中央値です。平均1190万円と中央値250万円、どちらが実態を表しているでしょうか。

この単元では、中央値をはじめとする他の代表値を学び、平均とのズレがなぜ生じるかを整理します。


中央値とは何か

代表値とは、データ全体を1つの数で要約するための値です。中央値は、その代表値の1つです。

中央値(median)は、データを小さい順に並べたときの順番的な真ん中の値です。

計算方法

データ数が奇数のとき

真ん中の値をそのまま中央値とします。

:5個のデータ 200, 220, 250, 280, 5000 の場合

並べると:200, 220, 250, 280, 5000

中央値 = 250万円


データ数が偶数のとき

データ数をnnとすると、n2\frac{n}{2}番目とn2+1\frac{n}{2}+1番目の値の平均を中央値とします。

:6個のデータ 200, 220, 250, 280, 300, 5000 の場合

並べると:200, 220, 250, 280, 300, 5000

62=3\frac{6}{2}=3番目と44番目の平均を取ります:

中央値=250+2802=265万円\text{中央値} = \frac{250 + 280}{2} = 265\text{万円}

※偶数個のときの中央値は、元のデータに含まれない値になることもあります(この例では265万円)。


最頻値とは何か

最頻値(モード)は、データの中で最も多く出現する値です。

:10人のテスト結果が 60, 65, 70, 70, 70, 75, 80, 85, 90, 95 のとき

70点が3回出現しており最も多いので、最頻値 = 70点


最頻値の特徴

質的データ(カテゴリー:血液型、職種、好きな色など)では平均や中央値は定義しにくいので、最頻値が使えます。これは最頻値だけが持つ特徴です。

データによっては最頻値が複数あることもあります(例:70点と80点が両方3回出現)。

すべての値が1回ずつの場合、最頻値は「どれも同じ回数」なので代表値としては決めにくく、最頻値を使わないことが多いです。


3つの代表値の比較

平均中央値最頻値
意味合計を等分した値順番的な真ん中最も多く出現する値
計算1ni=1nxi\frac{1}{n}\sum_{i=1}^{n} x_i並べて真ん中を取る出現回数を数える
外れ値の影響強く受ける受けにくい受けにくい
使える場面数値データ数値データ(順序があればOK)すべてのデータ

i=1nxi\sum_{i=1}^{n} x_iは「すべてのデータの合計」を表します。


歪みと代表値のズレ

山が1つの左右対称な分布(正規分布など)では、平均・中央値・最頻値はほぼ一致します。

しかし、**分布が左右対称でない(右や左に偏る)**と、3つの代表値が同じ位置にならず、ずれます。

右に歪んだ分布(右裾が長い)

:年収、資産、取引額など

右側に極端な値(外れ値)があると、平均がそちらに引っ張られます。

年収の例(200, 220, 250, 280, 5000万円)では:

平均が中央値より大きくずれています。


左に歪んだ分布(左裾が長い)

:テストの点数(難しい試験で大半が低得点)、製品の不良率など

左側に極端な値があると、平均がそちらに引っ張られます。

:10人のテスト結果が 20, 30, 85, 90, 90, 90, 90, 95, 95, 100 のとき

少数の低得点(20, 30)が平均を引き下げています。


どの代表値を使うとよいか

平均を使うとよい場面

中央値を使うとよい場面

最頻値を使うとよい場面


平均と中央値のズレで分布を読む

平均と中央値の関係から、分布の歪みを推測できます。

左右対称な分布:平均と中央値がほぼ一致

右に歪んだ分布:平均が中央値より大きい

左に歪んだ分布:平均が中央値より小さい

関係分布の形
平均 ≈ 中央値左右対称
平均 > 中央値右に歪んでいる(高い値に引っ張られている)
平均 < 中央値左に歪んでいる(低い値に引っ張られている)

:「平均年収450万円、中央値380万円」というデータなら、平均 > 中央値なので、「右に歪んでいる(一部の高所得者が平均を引き上げている)」と推測できます。


よくある誤解

注意
  • 誤解:平均は「真ん中の人」を表す — 外れ値が少数でも大きいと、平均は簡単に引き上げられます。真ん中の人(順位の中央)を知りたいなら中央値のほうが合っています。年収の例では、5人中4人は平均(1190万円)より大幅に低い年収です。平均は「典型的な人」を表しているわけではありません。

まとめ

中央値は、データを並べたときの順番的な真ん中の値です。最頻値は最も多く出現する値です。

平均・中央値・最頻値は、山が1つの左右対称な分布なら一致しますが、歪んでいるとずれます。

外れ値がある場合や分布が歪んでいる場合は、中央値の方が実態を表すことが多くあります。

平均と中央値の関係を見ることで、分布の歪みを推測できます。