分布関数

「ある値以下の確率」をまとめる

難易度 Lv 3 / 10想定時間:約20

できるようになること


ある値以下の確率を一気に計算したい

確率分布の単元では、「ちょうどその値になる確率」P(X=x)P(X=x) を整理しました。 サイコロを1回振って出た目を確率変数 XX とすると、確率分布は次のとおりです。

xx123456
P(X=x)P(X=x)1/61/61/61/61/61/6

ここで「3以下が出る確率」P(X3)P(X \leq 3) を知りたいとします。確率分布から計算すると、

P(X3)=P(X=1)+P(X=2)+P(X=3)=36P(X \leq 3) = P(X=1) + P(X=2) + P(X=3) = \dfrac{3}{6}

となります。範囲の確率を調べるたびにこの足し算をするのは手間がかかります。

そこで、「xx 以下になる確率」を最初からまとめて持っておく考え方が出てきます。

分布関数とは何か

確率変数 XX について、次で定義される関数 F(x)F(x) を分布関数(cumulative distribution function, CDF)といいます。

F(x)=P(Xx)F(x) = P(X \leq x)

確率分布が「ちょうど xx になる確率」P(X=x)P(X=x) を表すのに対し、分布関数は 「xx 以下になる確率P(Xx)P(X \leq x) を表します。 また F(x)F(x) は、整数だけでなく実数全体の xx に対して定義されます。

サイコロ1個の場合の分布関数 F(x)F(x) は以下のとおりです。

xx123456
F(x)F(x)1/62/63/64/65/66/6

離散型と連続型:確率変数が取りうる値の違い

確率変数には大きく分けて次の2種類があります。

分布関数の定義はどちらでも F(x)=P(Xx)F(x) = P(X \leq x) です。

ただし、グラフの見え方は変わります。 離散型では確率は特定の値(点)でだけ発生するため、分布関数は階段状になります。 連続型では、分布関数はなめらかな曲線として現れることが多くなります。

分布関数のグラフ

離散型の場合、分布関数をグラフにすると階段状になります(横軸 xx、縦軸 F(x)F(x))。

跳ね上がりの大きさは、ちょうどその値になる確率 P(X=x)P(X=x) に対応 します。

離散型の分布関数(階段グラフ)

連続型の場合、分布関数は以下のように滑らかなグラフになります。

連続型の分布関数(滑らかな曲線)

分布関数の性質

分布関数 F(x)F(x) は、必ず次の性質を満たします。

1. 単調非減少(減らない)

x1<x2x_1 < x_2 なら、F(x1)F(x2)F(x_1) \leq F(x_2) が成り立ちます。 「xx 以下」という範囲は xx が大きいほど広がるため、確率が減ることはありません。

2. 値は0から1の範囲

0F(x)10 \leq F(x) \leq 1 が成り立ちます。 xx が最小値より小さいところでは F(x)=0F(x) = 0、最大値以上では F(x)=1F(x) = 1 になります。

3. 右連続

F(x)=P(Xx)F(x) = P(X \leq x) と定義するため、境目の xx では「xx の直後(xx より少し大きいところ)と同じ値」を F(x)F(x) に採用します。 これを右連続といいます。階段の段差の大きさは、ちょうどその値になる確率 P(X=x)P(X=x) です。

分布関数から確率を読み取る

分布関数があると、範囲の確率を引き算で求められます。

「間の値を全部足す」のではなく、「端の2点を読む」だけで計算できるのが利点です。

境界(<<\leq)の確認

分布関数の定義は F(x)=P(Xx)F(x) = P(X \leq x) です。\leq(以下)になっている点が重要です。

例えばサイコロで x=3x=3 のとき、

ヒント

範囲の確率を計算するときは、次の順に確認すると混同しにくくなります。(1) 不等号を書く → (2) 左端は「含む/含まない」を決める → (3) どの F()F(\cdot) を引くか決める

まとめ

分布関数は F(x)=P(Xx)F(x) = P(X \leq x) で定義される関数です。 確率分布が P(X=x)P(X=x) を表すのに対し、分布関数は「ある値以下の確率」 をまとめて持ちます。

分布関数の3つの性質を確認してください。

範囲の確率は F(b)F(a)F(b) - F(a) の形で計算できます。 境界(<<\leq)の取り扱いに注意してください。