幾何分布は、ベルヌーイ分布に従う試行を繰り返したとき「初めて成功するまでに何回失敗するか」を表す離散型確率分布である。確率関数が等比数列(幾何数列)の形をしていることから、この名前がついている。
たとえば、サイコロを振って6が出るまでに何回6以外が出るか、製品検査で不良品が見つかるまでに何個の良品を検査するか、といった問題に幾何分布が適用できる。
幾何分布は離散型確率分布の中で唯一無記憶性をもつ分布であり、これは連続型分布における指数分布に対応する重要な性質である。
定義
成功確率 p(0 < p < 1)の独立なベルヌーイ試行を繰り返したとき、初めて成功するまでに起こる失敗の回数 X が従う分布を幾何分布(geometric distribution)といい、\text{Geo}(p) と表す。
ただし q = 1 - p
この確率関数は次のように理解できる。X = x となるのは「最初の x 回すべて失敗し、その次(x+1 回目)に成功する」ときであり、その確率は
となる。確率関数が pq^x という等比数列(幾何数列)の形をしているため、「幾何分布」と呼ばれる。
確率の総和が1になることの確認
等比級数の公式を用いると
「初めて成功するまでの試行回数 W」を幾何分布と呼ぶ教科書もある。その場合 W = X + 1 であり、確率関数は P(W = w) = pq^{w-1}(w = 1, 2, 3, \ldots)となる。本記事では失敗回数 X を基本として説明する。
確率分布のグラフ
以下は \text{Geo}(0.3) の確率関数のグラフである。
幾何分布は常に x = 0 で最大となり、x が増えるにつれて指数関数的に減少する。p が大きいほど減衰が速く、p が小さいほど裾が長くなる。
確率母関数
幾何分布の確率母関数を導出する。
ただし、等比級数が収束する条件 |sq| < 1、すなわち |s| < \dfrac{1}{q} が必要である。
期待値と分散
確率母関数を用いて期待値と分散を導出する。
期待値の導出
確率母関数を微分すると
s = 1 を代入すると
この結果は直感的にも理解できる。「失敗回数の期待値」と「成功回数(= 1)」の比は、「失敗確率 q」と「成功確率 p」の比に等しい。
分散の導出
分散は V[X] = E[X(X-1)] + E[X] - (E[X])^2 を用いて求める。まず G''(s) を計算する。
したがって
幾何分布 \text{Geo}(p)(失敗回数)では
- 期待値:E[X] = \dfrac{q}{p}
- 分散:V[X] = \dfrac{q}{p^2}
- 標準偏差:\sigma = \dfrac{\sqrt{q}}{p}
試行回数 W = X + 1 では、E[W] = \dfrac{1}{p}、V[W] = \dfrac{q}{p^2}
無記憶性
幾何分布は離散型確率分布の中で唯一、無記憶性(memoryless property)をもつ。
X \sim \text{Geo}(p) のとき、任意の非負整数 t_1, t_2 に対して
これは「すでに t_1 回失敗したという条件のもとで、さらに t_2 回以上失敗する確率」が「最初から t_2 回以上失敗する確率」と等しいことを意味する。過去の失敗回数に関係なく、将来の失敗確率は変わらない。
証明
まず P(X \geq t) を求める。「X \geq t」は「最初の t 回がすべて失敗」と同値なので
条件付き確率の定義より
この性質は、独立なベルヌーイ試行の「リセット」と解釈できる。何回失敗しても、次の試行は常に成功確率 p で新しく始まる。
幾何分布が唯一の無記憶分布であることの証明
上では幾何分布が無記憶性を持つことを示した。逆に、無記憶性を持つ離散型確率分布は幾何分布に限ることを証明する。
非負整数値をとる確率変数 T が無記憶性を持つと仮定する。生存関数を G(n) = P(T > n) と定義する。
無記憶性の定義より
条件付き確率の定義を用いると
すなわち
これは指数法則である。m = n = 1 とすると G(2) = G(1)^2、続けて G(3) = G(2) \cdot G(1) = G(1)^3、一般に
G(n) = P(T > n) \to 0(n \to \infty)であるから、0 < G(1) < 1 でなければならない。q = G(1) とおくと
よって確率関数は
p = 1 - q とおけば P(T = n) = p q^{n-1}(n = 1, 2, 3, \ldots)となり、これは試行回数版の幾何分布である。
非負整数値をとる確率分布が無記憶性を持つならば、それは幾何分布である。連続型では、指数分布が唯一の無記憶分布である。
計算例
例1:サイコロ
サイコロを振って6が出るまで試行を続ける。6以外が出る回数 X の期待値と、ちょうど3回6以外が出る確率を求めよ。
【解答】
成功(6が出る)確率は p = \dfrac{1}{6}、失敗確率は q = \dfrac{5}{6} である。X \sim \text{Geo}\left(\dfrac{1}{6}\right)
ちょうど3回6以外が出る確率は
例2:製品検査
不良品率5%の製品を検査する。初めて不良品が見つかるまでに検査する良品の個数 X の期待値と分散を求めよ。
【解答】
成功(不良品発見)確率は p = 0.05、q = 0.95 である。
平均19個の良品を検査した後に不良品が見つかる。
練習問題
p = 0.5 のとき、失敗回数 X \sim \text{Geo}(0.5) である。
試行回数は W = X + 1 なので
または E[W] = \dfrac{1}{p} = \dfrac{1}{0.5} = 2
無記憶性より
P(X = 0) = p なので
1回目で成功する確率が90%を超えるには、成功確率が0.9より大きければよい。
まとめ
| 項目 | 内容 |
|---|---|
| 分布名 | 幾何分布(geometric distribution) |
| 記法 | \text{Geo}(p) |
| 確率変数 | 初めて成功するまでの失敗回数 X |
| 確率関数 | P(X=x) = pq^x (x = 0, 1, 2, \ldots) |
| 期待値 | E[X] = \dfrac{q}{p} |
| 分散 | V[X] = \dfrac{q}{p^2} |
| 確率母関数 | G(s) = \dfrac{p}{1-qs} (|s| < \dfrac{1}{q}) |
| 無記憶性 | P(X \geq t_1 + t_2 \mid X \geq t_1) = P(X \geq t_2) |
| 試行回数版 | W = X + 1:E[W] = \dfrac{1}{p}、V[W] = \dfrac{q}{p^2} |
Pythonで実装する
Pythonを使って幾何分布の計算やシミュレーションを行う。
import numpy as np
from scipy import stats
# パラメータ設定
p = 0.3 # 成功確率
q = 1 - p
print(f"=== 幾何分布 Geo({p}) ===")
print(f"期待値: E[X] = q/p = {q/p:.4f}")
print(f"分散 : V[X] = q/p^2 = {q/p**2:.4f}")
# scipy.stats.nbinom(1, p) が失敗回数バージョンの幾何分布
dist = stats.nbinom(1, p)
print(f"\nscipy.statsによる確認:")
print(f"期待値: {dist.mean():.4f}")
print(f"分散 : {dist.var():.4f}")
# 確率関数
print(f"\n確率関数 P(X=x) = p*q^x:")
for x in range(8):
prob = p * (q ** x)
bar = "█" * int(prob * 40)
print(f" P(X={x}) = {prob:.4f} {bar}")
# 累積確率
print(f"\nP(X >= 3) = q^3 = {q**3:.4f}")
print(f"P(X <= 2) = 1 - q^3 = {1 - q**3:.4f}")
# 無記憶性の確認
print(f"\n--- 無記憶性の確認 ---")
t1, t2 = 3, 2
conditional = (q**(t1+t2)) / (q**t1)
direct = q**t2
print(f"P(X >= {t1+t2} | X >= {t1}) = {conditional:.4f}")
print(f"P(X >= {t2}) = {direct:.4f}")
print(f"一致: {np.isclose(conditional, direct)}")
# シミュレーション
np.random.seed(42)
samples = stats.nbinom.rvs(1, p, size=10000)
print(f"\nシミュレーション(10000回):")
print(f"標本平均: {np.mean(samples):.4f} (理論値: {q/p:.4f})")
print(f"標本分散: {np.var(samples, ddof=0):.4f} (理論値: {q/p**2:.4f})")
無記憶性により、P(X \geq 5 \mid X \geq 3) = P(X \geq 2) が成り立つことが確認できる。