z得点(標準化)と変動係数
異なるスケールのデータを比較可能にする2つの道具
できるようになること
- z得点(標準化得点)の定義を説明し、手計算で求めることができる
- z得点を使って「異なるテスト間の相対的な位置づけ」を比較できる
- 変動係数(CV)の定義と、標準偏差だけでは比較できない場合に使う理由を説明できる
2つのテストの成績を比べたい
あなたは数学のテストで80点、英語のテストで70点を取りました。数学の方が良い成績に見えますが、本当にそうでしょうか。
もし数学のクラス平均が85点で、英語のクラス平均が60点だったとすると、話が変わります。数学は平均以下ですが、英語は平均より上です。
ここで各テストの情報を整理してみましょう。
| 数学 | 英語 | |
|---|---|---|
| あなたの得点 | 80点 | 70点 |
| クラス平均 | 85点 | 60点 |
| 標準偏差 | 5点 | 20点 |
標準偏差まで考慮すると、数学では平均から1標準偏差分だけ下にいますが、英語では平均から0.5標準偏差分だけ上にいます。
このように、平均とばらつきが異なる集団でそれぞれ取った値を比較するには、元の点数だけでは判断できません。ここで登場するのがz得点(z-score)です。
z得点とは何か
z得点は、データの値が「平均からどれだけ離れているか」を標準偏差の単位で表したものです。
はデータの値、 は対象となる集団全体の平均、 はその集団の標準偏差です。この操作を標準化(standardization)と呼びます。
z得点の符号と絶対値にはそれぞれ意味があります。
| z得点 | 意味 |
|---|---|
| 平均より上 | |
| 平均より下 | |
| ちょうど平均 | |
| 平均から標準偏差1つ分離れている | |
| 平均から標準偏差2つ分離れている(かなり外側) |
計算例:数学と英語
先ほどの表のデータで実際にz得点を求めてみましょう。
数学:得点80点、平均85点、標準偏差5点
英語:得点70点、平均60点、標準偏差20点
数学のz得点は (平均から標準偏差1つ分だけ下)、英語のz得点は (平均から標準偏差0.5個分だけ上)です。
元の点数では数学(80点)の方が高く見えましたが、z得点で比較すると英語の方が相対的に良い成績だと分かります。
z得点は「その集団の中での相対的な位置づけ」を示す指標です。点数そのものの優劣ではなく、「集団の中でどれくらい優れているか/劣っているか」を比較できます。ただし、z得点で意味のある比較ができるのは、同じ条件の集団どうしに限られます。例えば、難関クラスと一般クラスのように母集団の質がまったく異なる場合は、z得点を並べても公平な比較にはなりません。
日本で馴染みのある偏差値は、実はz得点を変換したものです。 という式で計算します。z得点 (ちょうど平均)が偏差値 に、z得点 が偏差値 に対応します。
標準化の性質
分散・標準偏差の単元で、次の2つの性質を学びました。
- 全データに同じ値を足しても、分散(と標準偏差)は変わらない
- 全データを 倍すると、標準偏差は 倍になる
標準化の式 は、この2つの操作を順に行っています。まず を引いて平均を0にし、次に で割って標準偏差を1にします。
数式で確認すると:
つまり、標準化とは「平均を0、標準偏差を1に揃える変換」です。この性質は、別の単元で正規分布の標準化(標準正規分布への変換)として再登場します。
標準偏差だけでは比較できない場合
z得点は「同じ指標を異なるスケールで比較する」ための道具でした。では、次のような場合はどうでしょうか。
ある会社で従業員の体重と身長のばらつきを比較したいとします。
- 体重:平均65 kg、標準偏差10 kg
- 身長:平均170 cm、標準偏差6 cm
標準偏差だけを見ると、体重(10 kg)の方が身長(6 cm)より「ばらつきが大きい」ように見えます。しかし、kg と cm という異なる単位の値を比べても意味がありません。
ここで必要なのが変動係数(coefficient of variation, CV)です。
変動係数とは何か
変動係数は、標準偏差を平均で割って相対的なばらつきを表す指標です。
単位が消えるため(分子と分母の単位が同じ)、異なる単位のデータ間でもばらつきの大きさを比較できます。パーセント表記(%)にすることもあります。
計算例
- 体重:(約15.4%)
- 身長:(約3.5%)
変動係数で比較すると、体重のばらつき(15.4%)は身長のばらつき(3.5%)の約4倍です。体重の方が「平均に対して相対的にばらついている」ことが分かります。
変動係数の注意点
変動係数は、平均が0に近い場合に値が極端に大きくなります。例えば、ある地点の冬の気温が平均1℃、標準偏差2℃のデータだったとすると、(200%)となり、ほとんど意味のある値になりません。変動係数は、身長・体重・売上金額のようにデータが負の値をとらず、絶対的なゼロが存在するデータで使うのが適切です。
z得点と変動係数の使い分け
| z得点(標準化) | 変動係数(CV) | |
|---|---|---|
| 目的 | 個々の値の相対的な位置を比較 | データ集団全体のばらつきの大きさを比較 |
| 計算 | ||
| 単位 | なし(無次元) | なし(無次元) |
| 使用例 | テストの点数を科目間で比較 | 身長と体重のばらつきを比較 |
| 注意 | 集団の条件が異なると比較不可 | 平均が0に近いと使えない |
どちらの指標も、異なるスケールのデータを比較可能にするための標準化という共通の発想に基づいています。
まとめ
z得点(z-score) は、個々のデータ値が「集団の中でどの位置にいるか」を標準偏差の単位で表す指標です。標準化によって平均0、標準偏差1に揃えることで、異なるスケールの値どうしを比較可能にします。
変動係数(coefficient of variation) は、標準偏差を平均で割った「相対的なばらつき」の指標です。単位が消えるため、異なる単位のデータ間でもばらつきの大きさを比較できます。ただし、平均が0に近いデータや負の値をとるデータには適しません。