負の二項分布

r回目の成功まで、何回かかるか

難易度 Lv 4 / 10想定時間:約25

できるようになること


3個目の不良品は何個目で見つかるか

幾何分布では「初めて不良品が見つかるまで何個検査するか」を考えました。

ここでは問いを広げます。「3個目の不良品が見つかるまで、何個検査するか」です。

不良品率が5%のとき、3個目の不良品は60個目あたりで見つかることもあれば、100個以上を要することもあります。「rr 回目の成功までの試行回数」を確率変数として扱う分布が負の二項分布(negative binomial distribution)です。

負の二項分布とは何か

成功確率が pp のベルヌーイ試行を繰り返し、rr 回目の成功が起きるまでの試行回数を確率変数 XX とします。

この XX が負の二項分布に従うとき、次のように書きます。

XNB(r,p)X \sim \mathrm{NB}(r, p)

XXrr 以上の整数値をとります(最低でも rr 回は試行が必要なため)。

注意

負の二項分布にも定義のバリエーションがあります。「rr 回目の成功までの試行回数」(X=r,r+1,X = r, r+1, \ldots)とする定義と、「rr 回目の成功までの失敗回数」(X=0,1,2,X = 0, 1, 2, \ldots)とする定義があります。本単元では幾何分布と揃えて 試行回数 の定義を使います。

幾何分布との関係

負の二項分布は幾何分布を一般化したものです。

つまり r=1r = 1 のとき、負の二項分布は幾何分布と一致します。

幾何分布の和としての解釈

rr 回目の成功までの試行は、次のように分解できます。

YiY_i は独立に幾何分布に従います。試行総数 XX は、

X=Y1+Y2++YrX = Y_1 + Y_2 + \cdots + Y_r

と表せます。負の二項分布は、独立な幾何分布の確率変数 rr 個の和です。

この見方を使うと、期待値や分散の計算がシンプルになります。たとえば不良品率 p=0.05p = 0.05 なら、平坧20個に1個の割合で不良品が見つかります。それを3回繰り返すので、平均的には 3×20=603 \times 20 = 60 個の検査が必要だと直感的に納得できます。

二項分布・幾何分布との違い

二項分布 B(n,p)B(n, p)幾何分布 Geo(p)\mathrm{Geo}(p)負の二項分布 NB(r,p)\mathrm{NB}(r, p)
固定するもの試行回数 nn成功回数(1回)成功回数 rr
確率変数成功回数 XX試行回数 XX試行回数 XX
問いnn 回中、何回成功するか初めて成功するまで何回かかるかrr 回成功するまで何回かかるか

この表を見ると、三つの分布はどれもベルヌーイ試行に基づいており、何を固定して何を確率変数にするかの違いだとわかります。

負の二項分布が成り立つための前提

負の二項分布の前提は幾何分布と同じく、ベルヌーイ試行の条件です。

前提意味検査の例
1. 結果は2択各試行の結果が「成功/失敗」の2種類だけ不良品/良品
2. 成功確率が一定どの試行でも成功確率が pp で変わらないどの製品も不良品になる確率が5%
3. 独立ある試行の結果が他の試行の確率に影響しないある製品の良否が次の製品に影響しない

前提が怪しいときの確認ポイント

幾何分布と同じく、以下の点を確認します。

前提1:成功/失敗の2択に整理できているか

検査結果が3段階以上に分かれる場合は、目的に合わせて2択に整理できるかを検討します。

前提2:成功確率 pp は途中で変わっていないか

rr 回目の成功までには幾何分布より多くの試行が必要になるため、長い時間にわたって pp が一定であることが求められます。製造ラインの劣化や環境変化などで pp が変動しないかを確認します。

前提3:独立だと言える根拠はあるか

試行回数が多くなるほど、試行間に共通する要因(原材料のロット、気温変化など)が影響しやすくなります。独立と見なせる根拠を確認します。

負の二項分布の確率計算

前提が成り立つとき、kk 回目の試行でちょうど rr 回目の成功が起きる確率は次の式で計算できます。

P(X=k)=k1Cr1pr(1p)kr(k=r,r+1,r+2,)P(X=k) = {}_{k-1}C_{r-1} \, p^r (1-p)^{k-r} \qquad (k = r, r+1, r+2, \ldots)

各項の意味を整理します。kk 回目は必ず成功と決まっているので、それを除いた最初の k1k-1 回の中に r1r-1 回の成功と krk-r 回の失敗が含まれます。

前提3(独立)より、各試行の確率を掛け合わせることができます。

:不良品率 p=0.05p = 0.05 のとき、ちょうど80個目で3個目の不良品が見つかる確率は、

P(X=80)=79C20.0530.9577P(X=80) = {}_{79}C_{2} \cdot 0.05^3 \cdot 0.95^{77}

=3081×0.000125×0.95770.00742= 3081 \times 0.000125 \times 0.95^{77} \approx 0.00742

幾何分布との確認

r=1r = 1 のとき、式がどうなるか確認します。

P(X=k)=k1C0p1(1p)k1=(1p)k1pP(X=k) = {}_{k-1}C_{0} \, p^1 (1-p)^{k-1} = (1-p)^{k-1} \, p

これは幾何分布の式と一致します。

確率の合計について

負の二項分布の確率質量関数を k=rk = r から \infty まで足すと1になります。

k=rP(X=k)=1\sum_{k=r}^{\infty} P(X=k) = 1

これは負の二項定理(一般化された二項定理)から導かれます。証明には負の二項係数という概念が必要で、二項分布や幾何分布の場合より高度になるため、ここでは結果のみ示します。

期待値と分散

XNB(r,p)X \sim \mathrm{NB}(r, p) のとき、

幾何分布の和からの導出

負の二項分布は独立な幾何分布 rr 個の和 X=Y1+Y2++YrX = Y_1 + Y_2 + \cdots + Y_r と見なせることを先に示しました。

YiGeo(p)Y_i \sim \mathrm{Geo}(p) の期待値と分散は、

期待値の線形性より、

E[X]=E ⁣[i=1rYi]=i=1rE[Yi]=r1p=rpE[X] = E\!\left[\sum_{i=1}^{r} Y_i\right] = \sum_{i=1}^{r} E[Y_i] = r \cdot \dfrac{1}{p} = \dfrac{r}{p}

YiY_i が独立なので、分散の加法性より、

Var(X)=i=1rVar(Yi)=r1pp2=r(1p)p2\mathrm{Var}(X) = \sum_{i=1}^{r} \mathrm{Var}(Y_i) = r \cdot \dfrac{1-p}{p^2} = \dfrac{r(1-p)}{p^2}

:不良品率5%(p=0.05p = 0.05)で3個目の不良品が見つかるまでの平均個数は 30.05=60\dfrac{3}{0.05} = 60 個です。直感的にも「20個に1個の割合で、3個見つけるなら平均60個」と納得できます。

まとめ

負の二項分布 NB(r,p)\mathrm{NB}(r, p) は、成功確率 pp のベルヌーイ試行を繰り返したとき、rr 回目の成功までの試行回数を表す離散分布です。

P(X=k)=k1Cr1pr(1p)krP(X=k) = {}_{k-1}C_{r-1} \, p^r (1-p)^{k-r}

期待値は rp\dfrac{r}{p}、分散は r(1p)p2\dfrac{r(1-p)}{p^2} です。

r=1r = 1 のとき幾何分布と一致し、独立な幾何分布 rr 個の和として解釈できます。この見方を使うと、幾何分布の期待値・分散をそのまま rr 倍するだけで求められます。

使う前に 3つの前提(2択・成功確率一定・独立) を確認してください。試行回数が多くなる分、成功確率の変動や試行間の依存関係には特に注意が必要です。