z得点(標準化)と変動係数

異なるスケールのデータを比較可能にする2つの道具

難易度 Lv 3 / 10想定時間:約20

できるようになること


2つのテストの成績を比べたい

あなたは数学のテストで80点、英語のテストで70点を取りました。数学の方が良い成績に見えますが、本当にそうでしょうか。

もし数学のクラス平均が85点で、英語のクラス平均が60点だったとすると、話が変わります。数学は平均以下ですが、英語は平均より上です。

ここで各テストの情報を整理してみましょう。

数学英語
あなたの得点80点70点
クラス平均85点60点
標準偏差5点20点

標準偏差まで考慮すると、数学では平均から1標準偏差分だけ下にいますが、英語では平均から0.5標準偏差分だけ上にいます。

このように、平均とばらつきが異なる集団でそれぞれ取った値を比較するには、元の点数だけでは判断できません。ここで登場するのがz得点(z-score)です。


z得点とは何か

z得点は、データの値が「平均からどれだけ離れているか」を標準偏差の単位で表したものです。

z=xxˉsz = \frac{x - \bar{x}}{s}

xx はデータの値、xˉ\bar{x} は対象となる集団全体の平均、ss はその集団の標準偏差です。この操作を標準化(standardization)と呼びます。

z得点の符号と絶対値にはそれぞれ意味があります。

z得点意味
z>0z > 0平均より上
z<0z < 0平均より下
z=0z = 0ちょうど平均
z=1|z| = 1平均から標準偏差1つ分離れている
z=2|z| = 2平均から標準偏差2つ分離れている(かなり外側)

計算例:数学と英語

先ほどの表のデータで実際にz得点を求めてみましょう。

数学:得点80点、平均85点、標準偏差5点

z数学=80855=55=1.0z_{\text{数学}} = \frac{80 - 85}{5} = \frac{-5}{5} = -1.0

英語:得点70点、平均60点、標準偏差20点

z英語=706020=1020=0.5z_{\text{英語}} = \frac{70 - 60}{20} = \frac{10}{20} = 0.5

数学のz得点は 1.0-1.0(平均から標準偏差1つ分だけ下)、英語のz得点は 0.50.5(平均から標準偏差0.5個分だけ上)です。

元の点数では数学(80点)の方が高く見えましたが、z得点で比較すると英語の方が相対的に良い成績だと分かります。

ポイント

z得点は「その集団の中での相対的な位置づけ」を示す指標です。点数そのものの優劣ではなく、「集団の中でどれくらい優れているか/劣っているか」を比較できます。ただし、z得点で意味のある比較ができるのは、同じ条件の集団どうしに限られます。例えば、難関クラスと一般クラスのように母集団の質がまったく異なる場合は、z得点を並べても公平な比較にはなりません。

ヒント

日本で馴染みのある偏差値は、実はz得点を変換したものです。T=10z+50T = 10z + 50 という式で計算します。z得点 00(ちょうど平均)が偏差値 5050 に、z得点 1.01.0 が偏差値 6060 に対応します。


標準化の性質

分散・標準偏差の単元で、次の2つの性質を学びました。

標準化の式 z=(xxˉ)/sz = (x - \bar{x})/s は、この2つの操作を順に行っています。まず xˉ\bar{x} を引いて平均を0にし、次に ss で割って標準偏差を1にします。

数式で確認すると:

変換後の平均:1nxixˉs=1s(1nxixˉ)=1s(xˉxˉ)=0\text{変換後の平均:} \frac{1}{n}\sum \frac{x_i - \bar{x}}{s} = \frac{1}{s}\left(\frac{1}{n}\sum x_i - \bar{x}\right) = \frac{1}{s}(\bar{x} - \bar{x}) = 0 変換後の分散:1n(xixˉs)2=1s21n(xixˉ)2=s2s2=1\text{変換後の分散:} \frac{1}{n}\sum \left(\frac{x_i - \bar{x}}{s}\right)^2 = \frac{1}{s^2}\cdot\frac{1}{n}\sum(x_i - \bar{x})^2 = \frac{s^2}{s^2} = 1

つまり、標準化とは「平均を0、標準偏差を1に揃える変換」です。この性質は、別の単元で正規分布の標準化(標準正規分布への変換)として再登場します。


標準偏差だけでは比較できない場合

z得点は「同じ指標を異なるスケールで比較する」ための道具でした。では、次のような場合はどうでしょうか。

ある会社で従業員の体重と身長のばらつきを比較したいとします。

標準偏差だけを見ると、体重(10 kg)の方が身長(6 cm)より「ばらつきが大きい」ように見えます。しかし、kg と cm という異なる単位の値を比べても意味がありません。

ここで必要なのが変動係数(coefficient of variation, CV)です。


変動係数とは何か

変動係数は、標準偏差を平均で割って相対的なばらつきを表す指標です。

CV=sxˉCV = \frac{s}{\bar{x}}

単位が消えるため(分子と分母の単位が同じ)、異なる単位のデータ間でもばらつきの大きさを比較できます。パーセント表記(CV×100CV \times 100%)にすることもあります。

計算例

変動係数で比較すると、体重のばらつき(15.4%)は身長のばらつき(3.5%)の約4倍です。体重の方が「平均に対して相対的にばらついている」ことが分かります。


変動係数の注意点

注意

変動係数は、平均が0に近い場合に値が極端に大きくなります。例えば、ある地点の冬の気温が平均1℃、標準偏差2℃のデータだったとすると、CV=2/1=2.0CV = 2/1 = 2.0(200%)となり、ほとんど意味のある値になりません。変動係数は、身長・体重・売上金額のようにデータが負の値をとらず、絶対的なゼロが存在するデータで使うのが適切です。


z得点と変動係数の使い分け

z得点(標準化)変動係数(CV)
目的個々の値の相対的な位置を比較データ集団全体のばらつきの大きさを比較
計算z=(xxˉ)/sz = (x - \bar{x}) / sCV=s/xˉCV = s / \bar{x}
単位なし(無次元)なし(無次元)
使用例テストの点数を科目間で比較身長と体重のばらつきを比較
注意集団の条件が異なると比較不可平均が0に近いと使えない

どちらの指標も、異なるスケールのデータを比較可能にするための標準化という共通の発想に基づいています。


まとめ

z得点(z-score) z=(xxˉ)/sz = (x - \bar{x})/s は、個々のデータ値が「集団の中でどの位置にいるか」を標準偏差の単位で表す指標です。標準化によって平均0、標準偏差1に揃えることで、異なるスケールの値どうしを比較可能にします。

変動係数(coefficient of variation) CV=s/xˉCV = s/\bar{x} は、標準偏差を平均で割った「相対的なばらつき」の指標です。単位が消えるため、異なる単位のデータ間でもばらつきの大きさを比較できます。ただし、平均が0に近いデータや負の値をとるデータには適しません。