二項分布


x \in \{0,1\}N \geqq m なる非負整数 N,m に対して,x=1 となる確率を \mu とする.

    \[ {\rm Bin}(m|N,\mu) = {}_{N}{\rm C}_{m}\mu^m(1-\mu)^{N-m} \]

を 二項分布 という.

今回はこの分布の正規性,期待値,分散,モデルについてのメモ.期待値・分散はこちらの記事の定義にしたがっている.


スポンサーリンク

正規性

Prop 1.1
二項分布 {\rm Bin}(m|N,\mu) は正規化されている.すなわち

    \[ \sum_{m=0}^{N}{\rm Bin}(m|N,\mu) = 1. \]

証明


コメント

期待値・分散

Prop 1.2
二項分布 {\rm Bin}(m|N,\mu) の期待値 \mathbb{E}[m] ,分散 {\rm var}[m]

    \begin{eqnarray*} \mathbb{E}[m] & = & N\mu \\ {\rm var}[m] & = & N\mu(1-\mu) \end{eqnarray*}

で与えられる.

証明

モデル

二項分布は「2つの状態のどちらか一方が必ず成り立つような試行を繰り返す」ことに対応する.もっとも単純な例は,表が出る確率が \mu であるようなコインの裏表である.これは表か裏のどちらかの状態をとる.

たとえば歪んだ(つまり表と裏が等確率で出るとは限らない)コインがあって,表が出る確率が \mu = \frac{3}{5} であったとする.このコインを100回投げたときに表が出る回数の期待値は

    \[ \mathbb{E}[m] & = & N\mu = 100 \times \frac{3}{5} = 60\\ \]

となる.つまり60回程度は表だろうということを意味するから,妥当な結果だと感じる.

分散は「データの散らばり具合」である.二項分布の場合は,表と裏がどれだけバラバラに観測できるか,といった意味になる.実際,分散が最大(もっともバラバラ)になるような \mu を求めてみよう.{\rm var}[m]\mu で微分するか,あるいは \mu について平方完成すれば,最大値は \mu = \frac{1}{2} のときであることがわかる.一方,\mu = 0,1 のときは分散は最小値 0 をとる.もちろんこのときのデータは表か裏にかたよっていて,バラバラではないのは明らかだ.


スポンサーリンク