平均とは何か
「中心」を表す最も代表的な指標を正しく理解する
できるようになること
- 平均の定義式を理解し、正しく計算できる
- 平均の重要な性質(合計との関係、線形性、偏差の和が0)を説明できる
- 平均の弱点(外れ値に弱い、ばらつきが分からない)を理解し、他の指標との使い分けができる
平均では分からないこと
「平均年収500万円」と聞いて、年収の分布をどのように想像しますか。
全員が450〜550万円の社会でしょうか。それとも、200万円の人が大半で、一部の高所得者が平均を引き上げている社会でしょうか。
平均だけでは、分布の形が見えません。
この単元では、平均が教えてくれることと、教えてくれないことを整理します。
平均とは何か
個のデータの平均(mean)(算術平均)は、次の式で計算します:
(エックスバー)と書きます。は、を1からまで変えながら足し合わせることを表します。
平均は、合計を個数で等分した「1個あたり」の値です。結果として、データの中心的な位置を1つの値で表す代表値になります。
例:5人のテスト結果が60, 70, 75, 80, 90点のとき
期待値との違い
期待値の単元で、期待値とデータの平均の違いに触れました。簡単に振り返ります。
| 期待値 | データの平均 | |
|---|---|---|
| 対象 | 確率分布(理論) | 手元のデータ(現実) |
| 計算 | (離散型の場合) | |
| 意味 | 理論上の平均 | 観測された平均 |
同じ仕組みで繰り返し観測できる状況では、データ数を増やすほどデータの平均は期待値に近づきやすくなります(大数の法則)。
平均の性質
1. 合計との関係
平均に個数を掛けると、合計に戻ります:
例:5人の平均が75点なら、合計は点です。
2. 定数の足し引き
すべてのデータに定数を足した新しいデータをとすると、その平均は:
例:全員に10点加点すると、平均も10点上がります。
3. 定数倍
すべてのデータを倍した新しいデータをとすると、その平均は:
4. 偏差の和は0
各データと平均との差を偏差といいます。すべての偏差を足すと必ず0になります:
これは平均が「データの中心」であることを示す重要な性質です。
平均の弱点
平均は便利な代表値ですが、3つの弱点があります。
1. 外れ値の影響を強く受ける
例:5人の年収(万円)が200, 220, 250, 280, 5000のとき
5000万円という極端な値が平均を大きく増加させています。「1190万円が中心」と言われても、実態とはかけ離れています。
このように、外れ値があると平均は実態を表しにくくなります。
2. ばらつきが分からない
冒頭の例のように、同じ平均500万円でも:
- 全員が450〜550万円(ばらつき小)
- 200万円の人が大半で、一部が高所得(ばらつき大)
では全く違う分布です。平均だけではデータの散らばり具合が見えません。
3. 分布の形が分からない
平均は「中心の位置」は教えてくれますが、「分布の形」は教えてくれません。
- 左右対称か、右(左)に偏っているか
- 山が1つか複数か
- 裾が重いか(極端な値が出やすいか)
こうした情報は、平均だけでは分かりません。
平均の弱点を補うために
平均だけでは不十分な場合、他の指標と併用することで実態が見えやすくなります。
| 状況 | 併用すべき指標 | 理由 |
|---|---|---|
| 外れ値がある | 中央値 | 外れ値の影響を受けにくい |
| ばらつきも知りたい | 分散・標準偏差 | 散らばり具合を数値化 |
| 分布が歪んでいる | 中央値 | 多数派の位置を表す |
外れ値を含めて「全体の傾向」を知りたい場合(例:総売上を従業員数で割った平均売上)は、平均が適しています。
よくある誤解
- 誤解1:平均は「典型的な人」を表す — 外れ値があると、平均は「典型的」な値からずれます。上の年収の例では、5人中4人は平均(1190万円)より大幅に低い年収です。
- 誤解2:平均が同じなら「だいたい同じ分布」 — 平均が同じでも、ばらつきや形が全く違うことがあります。平均だけで分布を判断することはできません。
まとめ
平均は、データの中心的な位置を表す代表値です。
合計との関係や、定数の足し引き・定数倍といった性質を持ちます。また、偏差の和が0になることも重要な性質です。
ただし、平均には弱点があります。外れ値の影響を強く受け、ばらつきや分布の形は分かりません。
外れ値がある場合や分布が歪んでいる場合は、平均だけでなく中央値や分散も一緒に見ることが重要です。