外れ値と歪み

「変な値」を見つけたとき、データとどう向き合うべきか

難易度 Lv 3 / 10想定時間:約20

できるようになること


「変な点」をどうするか

データの中に「120点」が含まれていました。100点満点のテストなのに、なぜ120点?

箱ひげ図で「外れ値」と検出されました。では、この点はどうすべきでしょうか。削除?修正?そのまま?

外れ値が見つかったとき、機械的に削除してはいけません 。まず原因を考え、適切な対応を選ぶ必要があります。


外れ値とは何か

外れ値(outlier)は、ある基準で見たときに他のデータから大きく離れた値です。外れ値かどうかは、分析目的と採用する基準によって変わります。

外れ値の検出方法はいくつかありますが、代表的なものは:

1. 箱ひげ図の基準

2. 標準偏差の基準

注意

標準偏差の基準は、データが正規分布(左右対称な釣鐘型の分布)に近い場合に有効です。歪んだ分布では過剰に検出されることがあります。また、極端な外れ値があると平均と標準偏差自体が変動してしまうため、注意が必要です。

3. 視覚的な判断

視覚的な判断は、基準(箱ひげ図・標準偏差など)と併用して、候補を見つける用途で使います。どの基準を使うかは、データの性質や分析の目的によります。


外れ値の原因を分類する

外れ値が見つかったら、なぜその値になったかを考えます。原因によって、取るべき対応が変わります。

1. データ入力のミス

2. 測定・記録の失敗

3. 本当の極端値

4. 異なる母集団


外れ値への対応

原因が分かったら、適切な対応を選びます。

対応1:削除

対応2:修正

対応3:そのまま残す

対応4:変換


外れ値と歪みの関係

外れ値と分布の歪み(歪度、skewness)は密接に関係しています。

外れ値が要約統計量を動かす: 少数の極端な値が、平均などの値を大きく動かし、分布が「右に長い」ように見えることがあります。 例:ほとんどが200-300万円の年収データに、1億円が1人いると、平均が大きく引き上げられます。

歪んだ分布では外れ値が出やすい: 右に歪んだ分布(年収、資産など)では、箱ひげ図の基準などで高い側が外れ値として検出されやすいことがあります。これは「異常」ではなく分布の性質です。このような場合、安易な削除より、対数変換などで分布を対称に近づける方が適切なことが多いです。


報告での説明

分析結果を報告するとき、外れ値への対応を明記します。

ポイント

良い例: 「年収データ1000件のうち、3件が箱ひげ図の基準で外れ値として検出されました。これらは実在する高所得者のデータであり、削除せずに分析に含めました。ただし、平均は外れ値の影響を受けやすいため、中央値を代表値として使用しました。」

説明がないと、自分に都合よくデータを操作したと疑われるリスクがあります。


よくある誤解

ポイント
  • 誤解1:外れ値は必ず削除すべき — 「本当の極端値」を削除すると、実態を歪めることになります。
  • 誤解2:外れ値の基準を満たせば自動的に削除 — 基準は「検出」の目安であって、「削除」の基準ではありません。
  • 誤解3:外れ値がなければ良いデータ — 分布の性質上、外れ値が出るのが自然な場合もあります。

まとめ

外れ値は、他のデータから大きく離れた値であり、原因(ミス、失敗、極端値、母集団の違い)を考えることが先決です。

対応は「削除・修正・そのまま・変換」の4つから、原因と分析目的に応じて選びます。どんな対応を選んでも、その理由を明記して説明できることが分析の信頼性に繋がります。