負の二項分布

r回目の成功まで、何回かかるか

難易度 Lv 4 / 10想定時間：約25分

できるようになること

負の二項分布の前提を確認し、使えるかどうかを判断できる
$P(X=k) = {}_{k-1}C_{r-1} \, p^r (1-p)^{k-r}$ を使って確率を計算できる
幾何分布との関係（ $r=1$ の特殊ケース）を説明できる

3個目の不良品は何個目で見つかるか

幾何分布では「初めて不良品が見つかるまで何個検査するか」を考えました。

ここでは問いを広げます。「3個目の不良品が見つかるまで、何個検査するか」です。

不良品率が5%のとき、3個目の不良品は60個目あたりで見つかることもあれば、100個以上を要することもあります。「 $r$ 回目の成功までの試行回数」を確率変数として扱う分布が負の二項分布（negative binomial distribution）です。

負の二項分布とは何か

成功確率が $p$ のベルヌーイ試行を繰り返し、 $r$ 回目の成功が起きるまでの試行回数を確率変数 $X$ とします。

この $X$ が負の二項分布に従うとき、次のように書きます。

$X \sim \mathrm{NB}(r, p)$

$X$ は $r$ 以上の整数値をとります（最低でも $r$ 回は試行が必要なため）。

注意

負の二項分布にも定義のバリエーションがあります。「 $r$ 回目の成功までの試行回数」（ $X = r, r+1, \ldots$ ）とする定義と、「 $r$ 回目の成功までの失敗回数」（ $X = 0, 1, 2, \ldots$ ）とする定義があります。本単元では幾何分布と揃えて 試行回数 の定義を使います。

幾何分布との関係

負の二項分布は幾何分布を一般化したものです。

幾何分布：1回目の成功までの試行回数 → $\mathrm{Geo}(p) = \mathrm{NB}(1, p)$
負の二項分布： $r$ 回目の成功までの試行回数 → $\mathrm{NB}(r, p)$

つまり $r = 1$ のとき、負の二項分布は幾何分布と一致します。

幾何分布の和としての解釈

$r$ 回目の成功までの試行は、次のように分解できます。

1回目の成功まで： $Y_1 \sim \mathrm{Geo}(p)$
1回目の成功の後、2回目の成功まで： $Y_2 \sim \mathrm{Geo}(p)$
…
$(r-1)$ 回目の成功の後、 $r$ 回目の成功まで： $Y_r \sim \mathrm{Geo}(p)$

各 $Y_i$ は独立に幾何分布に従います。試行総数 $X$ は、

$X = Y_1 + Y_2 + \cdots + Y_r$

と表せます。負の二項分布は、独立な幾何分布の確率変数 $r$ 個の和です。

この見方を使うと、期待値や分散の計算がシンプルになります。たとえば不良品率 $p = 0.05$ なら、平坧20個に1個の割合で不良品が見つかります。それを3回繰り返すので、平均的には $3 \times 20 = 60$ 個の検査が必要だと直感的に納得できます。

二項分布・幾何分布との違い

	二項分布 $B(n, p)$	幾何分布 $\mathrm{Geo}(p)$	負の二項分布 $\mathrm{NB}(r, p)$
固定するもの	試行回数 $n$	成功回数（1回）	成功回数 $r$
確率変数	成功回数 $X$	試行回数 $X$	試行回数 $X$
問い	$n$ 回中、何回成功するか	初めて成功するまで何回かかるか	$r$ 回成功するまで何回かかるか

この表を見ると、三つの分布はどれもベルヌーイ試行に基づいており、何を固定して何を確率変数にするかの違いだとわかります。

負の二項分布が成り立つための前提

負の二項分布の前提は幾何分布と同じく、ベルヌーイ試行の条件です。

前提	意味	検査の例
1. 結果は2択	各試行の結果が「成功／失敗」の2種類だけ	不良品／良品
2. 成功確率が一定	どの試行でも成功確率が $p$ で変わらない	どの製品も不良品になる確率が5%
3. 独立	ある試行の結果が他の試行の確率に影響しない	ある製品の良否が次の製品に影響しない

前提が怪しいときの確認ポイント

幾何分布と同じく、以下の点を確認します。

前提1：成功／失敗の2択に整理できているか

検査結果が3段階以上に分かれる場合は、目的に合わせて2択に整理できるかを検討します。

前提2：成功確率 $p$ は途中で変わっていないか

$r$ 回目の成功までには幾何分布より多くの試行が必要になるため、長い時間にわたって $p$ が一定であることが求められます。製造ラインの劣化や環境変化などで $p$ が変動しないかを確認します。

前提3：独立だと言える根拠はあるか

試行回数が多くなるほど、試行間に共通する要因（原材料のロット、気温変化など）が影響しやすくなります。独立と見なせる根拠を確認します。

負の二項分布の確率計算

前提が成り立つとき、 $k$ 回目の試行でちょうど $r$ 回目の成功が起きる確率は次の式で計算できます。

$P(X=k) = {}_{k-1}C_{r-1} \, p^r (1-p)^{k-r} \qquad (k = r, r+1, r+2, \ldots)$

各項の意味を整理します。 $k$ 回目は必ず成功と決まっているので、それを除いた最初の $k-1$ 回の中に $r-1$ 回の成功と $k-r$ 回の失敗が含まれます。

$p^r$ ： $r$ 回の成功の確率（ $k$ 回目の1回を含む）
$(1-p)^{k-r}$ ： $k-r$ 回の失敗の確率
${}_{k-1}C_{r-1}$ ： $k-1$ か所から成功が起きる $r-1$ か所を選ぶ組み合わせの数

前提3（独立）より、各試行の確率を掛け合わせることができます。

例：不良品率 $p = 0.05$ のとき、ちょうど80個目で3個目の不良品が見つかる確率は、

$P(X=80) = {}_{79}C_{2} \cdot 0.05^3 \cdot 0.95^{77}$

$= 3081 \times 0.000125 \times 0.95^{77} \approx 0.00742$

幾何分布との確認

$r = 1$ のとき、式がどうなるか確認します。

$P(X=k) = {}_{k-1}C_{0} \, p^1 (1-p)^{k-1} = (1-p)^{k-1} \, p$

これは幾何分布の式と一致します。

確率の合計について

負の二項分布の確率質量関数を $k = r$ から $\infty$ まで足すと1になります。

$\sum_{k=r}^{\infty} P(X=k) = 1$

これは負の二項定理（一般化された二項定理）から導かれます。証明には負の二項係数という概念が必要で、二項分布や幾何分布の場合より高度になるため、ここでは結果のみ示します。

期待値と分散

$X \sim \mathrm{NB}(r, p)$ のとき、

期待値： $E[X] = \dfrac{r}{p}$
分散： $\mathrm{Var}(X) = \dfrac{r(1-p)}{p^2}$

幾何分布の和からの導出

負の二項分布は独立な幾何分布 $r$ 個の和 $X = Y_1 + Y_2 + \cdots + Y_r$ と見なせることを先に示しました。

各 $Y_i \sim \mathrm{Geo}(p)$ の期待値と分散は、

$E[Y_i] = \dfrac{1}{p}$
$\mathrm{Var}(Y_i) = \dfrac{1-p}{p^2}$

期待値の線形性より、

$E[X] = E\!\left[\sum_{i=1}^{r} Y_i\right] = \sum_{i=1}^{r} E[Y_i] = r \cdot \dfrac{1}{p} = \dfrac{r}{p}$

各 $Y_i$ が独立なので、分散の加法性より、

$\mathrm{Var}(X) = \sum_{i=1}^{r} \mathrm{Var}(Y_i) = r \cdot \dfrac{1-p}{p^2} = \dfrac{r(1-p)}{p^2}$

例：不良品率5%（ $p = 0.05$ ）で3個目の不良品が見つかるまでの平均個数は $\dfrac{3}{0.05} = 60$ 個です。直感的にも「20個に1個の割合で、3個見つけるなら平均60個」と納得できます。

まとめ

負の二項分布 $\mathrm{NB}(r, p)$ は、成功確率 $p$ のベルヌーイ試行を繰り返したとき、 $r$ 回目の成功までの試行回数を表す離散分布です。

$P(X=k) = {}_{k-1}C_{r-1} \, p^r (1-p)^{k-r}$

期待値は $\dfrac{r}{p}$ 、分散は $\dfrac{r(1-p)}{p^2}$ です。

$r = 1$ のとき幾何分布と一致し、独立な幾何分布 $r$ 個の和として解釈できます。この見方を使うと、幾何分布の期待値・分散をそのまま $r$ 倍するだけで求められます。

使う前に 3つの前提（2択・成功確率一定・独立） を確認してください。試行回数が多くなる分、成功確率の変動や試行間の依存関係には特に注意が必要です。