負の二項分布
r回目の成功まで、何回かかるか
難易度 Lv 4 / 10想定時間:約25分
できるようになること
- 負の二項分布の前提を確認し、使えるかどうかを判断できる
- P(X=k)=k−1Cr−1pr(1−p)k−r を使って確率を計算できる
- 幾何分布との関係(r=1 の特殊ケース)を説明できる
3個目の不良品は何個目で見つかるか
幾何分布では「初めて不良品が見つかるまで何個検査するか」を考えました。
ここでは問いを広げます。「3個目の不良品が見つかるまで、何個検査するか」です。
不良品率が5%のとき、3個目の不良品は60個目あたりで見つかることもあれば、100個以上を要することもあります。「r 回目の成功までの試行回数」を確率変数として扱う分布が負の二項分布(negative binomial distribution)です。
負の二項分布とは何か
成功確率が p のベルヌーイ試行を繰り返し、r 回目の成功が起きるまでの試行回数を確率変数 X とします。
この X が負の二項分布に従うとき、次のように書きます。
X∼NB(r,p)
X は r 以上の整数値をとります(最低でも r 回は試行が必要なため)。
負の二項分布にも定義のバリエーションがあります。「r 回目の成功までの試行回数」(X=r,r+1,…)とする定義と、「r 回目の成功までの失敗回数」(X=0,1,2,…)とする定義があります。本単元では幾何分布と揃えて 試行回数 の定義を使います。
幾何分布との関係
負の二項分布は幾何分布を一般化したものです。
- 幾何分布:1回目の成功までの試行回数 → Geo(p)=NB(1,p)
- 負の二項分布:r 回目の成功までの試行回数 → NB(r,p)
つまり r=1 のとき、負の二項分布は幾何分布と一致します。
幾何分布の和としての解釈
r 回目の成功までの試行は、次のように分解できます。
- 1回目の成功まで:Y1∼Geo(p)
- 1回目の成功の後、2回目の成功まで:Y2∼Geo(p)
- …
- (r−1) 回目の成功の後、r 回目の成功まで:Yr∼Geo(p)
各 Yi は独立に幾何分布に従います。試行総数 X は、
X=Y1+Y2+⋯+Yr
と表せます。負の二項分布は、独立な幾何分布の確率変数 r 個の和です。
この見方を使うと、期待値や分散の計算がシンプルになります。たとえば不良品率 p=0.05 なら、平坧20個に1個の割合で不良品が見つかります。それを3回繰り返すので、平均的には 3×20=60 個の検査が必要だと直感的に納得できます。
二項分布・幾何分布との違い
| 二項分布 B(n,p) | 幾何分布 Geo(p) | 負の二項分布 NB(r,p) |
|---|
| 固定するもの | 試行回数 n | 成功回数(1回) | 成功回数 r |
| 確率変数 | 成功回数 X | 試行回数 X | 試行回数 X |
| 問い | n 回中、何回成功するか | 初めて成功するまで何回かかるか | r 回成功するまで何回かかるか |
この表を見ると、三つの分布はどれもベルヌーイ試行に基づいており、何を固定して何を確率変数にするかの違いだとわかります。
負の二項分布が成り立つための前提
負の二項分布の前提は幾何分布と同じく、ベルヌーイ試行の条件です。
| 前提 | 意味 | 検査の例 |
|---|
| 1. 結果は2択 | 各試行の結果が「成功/失敗」の2種類だけ | 不良品/良品 |
| 2. 成功確率が一定 | どの試行でも成功確率が p で変わらない | どの製品も不良品になる確率が5% |
| 3. 独立 | ある試行の結果が他の試行の確率に影響しない | ある製品の良否が次の製品に影響しない |
前提が怪しいときの確認ポイント
幾何分布と同じく、以下の点を確認します。
前提1:成功/失敗の2択に整理できているか
検査結果が3段階以上に分かれる場合は、目的に合わせて2択に整理できるかを検討します。
前提2:成功確率 p は途中で変わっていないか
r 回目の成功までには幾何分布より多くの試行が必要になるため、長い時間にわたって p が一定であることが求められます。製造ラインの劣化や環境変化などで p が変動しないかを確認します。
前提3:独立だと言える根拠はあるか
試行回数が多くなるほど、試行間に共通する要因(原材料のロット、気温変化など)が影響しやすくなります。独立と見なせる根拠を確認します。
負の二項分布の確率計算
前提が成り立つとき、k 回目の試行でちょうど r 回目の成功が起きる確率は次の式で計算できます。
P(X=k)=k−1Cr−1pr(1−p)k−r(k=r,r+1,r+2,…)
各項の意味を整理します。k 回目は必ず成功と決まっているので、それを除いた最初の k−1 回の中に r−1 回の成功と k−r 回の失敗が含まれます。
- pr:r 回の成功の確率(k 回目の1回を含む)
- (1−p)k−r:k−r 回の失敗の確率
- k−1Cr−1:k−1 か所から成功が起きる r−1 か所を選ぶ組み合わせの数
前提3(独立)より、各試行の確率を掛け合わせることができます。
例:不良品率 p=0.05 のとき、ちょうど80個目で3個目の不良品が見つかる確率は、
P(X=80)=79C2⋅0.053⋅0.9577
=3081×0.000125×0.9577≈0.00742
幾何分布との確認
r=1 のとき、式がどうなるか確認します。
P(X=k)=k−1C0p1(1−p)k−1=(1−p)k−1p
これは幾何分布の式と一致します。
確率の合計について
負の二項分布の確率質量関数を k=r から ∞ まで足すと1になります。
∑k=r∞P(X=k)=1
これは負の二項定理(一般化された二項定理)から導かれます。証明には負の二項係数という概念が必要で、二項分布や幾何分布の場合より高度になるため、ここでは結果のみ示します。
期待値と分散
X∼NB(r,p) のとき、
- 期待値:E[X]=pr
- 分散:Var(X)=p2r(1−p)
幾何分布の和からの導出
負の二項分布は独立な幾何分布 r 個の和 X=Y1+Y2+⋯+Yr と見なせることを先に示しました。
各 Yi∼Geo(p) の期待値と分散は、
- E[Yi]=p1
- Var(Yi)=p21−p
期待値の線形性より、
E[X]=E[∑i=1rYi]=∑i=1rE[Yi]=r⋅p1=pr
各 Yi が独立なので、分散の加法性より、
Var(X)=∑i=1rVar(Yi)=r⋅p21−p=p2r(1−p)
例:不良品率5%(p=0.05)で3個目の不良品が見つかるまでの平均個数は 0.053=60 個です。直感的にも「20個に1個の割合で、3個見つけるなら平均60個」と納得できます。
まとめ
負の二項分布 NB(r,p) は、成功確率 p のベルヌーイ試行を繰り返したとき、r 回目の成功までの試行回数を表す離散分布です。
P(X=k)=k−1Cr−1pr(1−p)k−r
期待値は pr、分散は p2r(1−p) です。
r=1 のとき幾何分布と一致し、独立な幾何分布 r 個の和として解釈できます。この見方を使うと、幾何分布の期待値・分散をそのまま r 倍するだけで求められます。
使う前に 3つの前提(2択・成功確率一定・独立) を確認してください。試行回数が多くなる分、成功確率の変動や試行間の依存関係には特に注意が必要です。