独立は何を仮定しているか

便利な反面、取り扱いには注意が必要

難易度 Lv 3 / 10想定時間:約20

できるようになること


独立と仮定する

次の状況を考えます。

このとき、P(AB)P(A \cap B) は?

ここでよくあるのは、事象 AA と事象 BB が独立と仮定して、

P(AB)=P(A)P(B)=0.2×0.3=0.06P(A \cap B) = P(A)P(B) = 0.2 \times 0.3 = 0.06

と計算することです。

この計算は非常に便利ですが、独立と仮定してよいかが問題になります。

独立でなかったとき、どれぐらいズレうるか

独立を仮定しない場合、P(AB)P(A \cap B) がどの範囲の値をとるかを考えます。

ABAA \cap B \subseteq A かつ ABBA \cap B \subseteq B より、

P(AB)min{P(A),  P(B)}P(A \cap B) \leq \min\{P(A),\; P(B)\}

が成り立ちます。

また ABΩA \cup B \subseteq \Omega より P(AB)1P(A \cup B) \leq 1 が成り立ちます。 P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B) であるため、0P(AB)0 \leq P(A \cap B) と合わせると、

max{0,  P(A)+P(B)1}P(AB)\max\{0,\; P(A) + P(B) - 1\} \leq P(A \cap B)

以上をまとめると、

max{0,  P(A)+P(B)1}P(AB)min{P(A),  P(B)}\max\{0,\; P(A) + P(B) - 1\} \leq P(A \cap B) \leq \min\{P(A),\; P(B)\}

となります。先ほどの例に当てはめると、

0P(AB)0.20 \leq P(A \cap B) \leq 0.2

です。

注意

独立を仮定すると、0から0.2のどこかにある本当の値を、0.06に固定して計算していることになります。

独立 = 情報を与えても確率が変わらない

事象 AABB が独立とは、次のどれかで定義できます(3つは同値です)。

言い換えると、独立を仮定する = B という情報を与えても、A の確率は変わらないということです。

独立を仮定して得るもの/失うもの

得るもの

独立と仮定すると、P(AB)P(A \cap B)P(A)P(A)P(B)P(B) だけで計算できます。

通常は AABB が同時に起きている様子が分かるデータがないと P(AB)P(A \cap B) を計算できませんが、このデータの取得は簡単ではありません。

一方で P(A)P(A)P(B)P(B) であれば、A と B をそれぞれ別々にデータ取得できれば計算できます。実務で独立を仮定することがよくあるのは、このような利便性があるためです。

失うもの

独立を仮定するということは、「A と B は同時に起きやすい/起きにくい」という同時に起きる傾向を、計算上は無視することです。

「B が起きたという情報によって A の確率が変わるかもしれない」という可能性を無視して計算することになります。

独立が成立しにくい典型パターン

ポイント

以下の6つは独立を仮定する前のチェックリストとして使えます。

パターン1:共通要因がある

A と B が、どちらも別の要因 C によって起きやすく/起きにくくなると、独立が成立しにくくなります。

例:大雪が降ると各種交通機関がマヒしやすくなります。

チェック:両方に同時に影響しそうな要因がないか

パターン2:片方がもう片方に影響する

A が起きることで B が起きやすく/起きにくくなる場合、独立は成立しにくくなります。

例:通知を見たことがアプリを開くきっかけになりえます。

チェック:時間順序があり、「片方がきっかけになり得る」関係になっていないか

パターン3:条件で絞った集団の中を見ている

全体では独立でも、「ある条件を満たすデータだけ」に絞ると独立が成立しないことがあります。

例:採用の応募者全体では以下の A と B が独立とします。

採用基準 S を「数学が得意 または コミュニケーション能力が高い」とします。 このとき、採用者だけを見ると以下が起こりえます。

チェック:「~だった人だけ」「~が起きた回だけ」などすでに条件でデータを絞っていないか

パターン4:定義が重なっている

A と B が「別のこと」をいっているようで、実は同じ情報を一部共有していると、独立が成立しにくいです。

例:発熱という軽い条件が、高熱という強い条件に含まれています(高熱の人は発熱している)。

チェック:片方の条件が、もう片方の条件の一部になっていないか

パターン5:無作為でない割り当て・選別が入っている

処置やグループ分けがランダムではなく、何かしらの基準で決まっていると、関係性が生まれやすく独立が成立しにくいです。

例:プラン提案が利用状況によって変わっているなら、独立とは限りません。

チェック:「誰に何を提示されたか」「誰が選ばれたか」が、行動や属性で変わっていないか

パターン6:同じ対象から複数回データをとっている

データが「人」「端末」「店舗」など同じ単位から複数回出てくると独立が成立しにくいです。

例:同じ人からの連続データは、状態(この場合は忙しさ)を共有しやすく、独立になりにくいです。

チェック:同じ対象から繰り返し出てきたデータになっていないか

独立仮定メモ

独立の仮定は便利ですが、後から「なぜ独立と判断したのか」が分からなくなることがあります。実務で独立を仮定したとき、次の4つを短く書いておくと、後から見直したときに役立ちます。

項目内容
根拠独立と仮定した根拠は何か
限界独立にならない可能性として、どのような要因が考えられるか
影響独立でなかった場合にどの程度の影響があるか
確認独立になりにくい条件に当てはまっていないかをチェックリストで確認したか

まとめ

独立とは、情報を与えても確率が変わらない状態をいいます。 P(AB)P(A \cap B) を観測するのが難しい場面でも、独立を仮定すれば AABB をそれぞれ観測するだけで済みます。

ただし、独立が成立しにくい場合もあります。 独立を仮定するときには、6つの典型パターンをチェックリストとして確認してください。

独立を仮定したときには、根拠・限界・影響・確認の4つについてメモを残しておくと、後で見返したときに迷いが生じにくくなります。