二項分布


$x \in \{0,1\}$ と $N \geqq m$ なる非負整数 $N,m$ に対して,$x=1$ となる確率を $\mu$ とする.
\[
{\rm Bin}(m|N,\mu) = {}_{N}{\rm C}_{m}\mu^m(1-\mu)^{N-m}
\]
を 二項分布 という.

今回はこの分布の正規性,期待値,分散,モデルについてのメモ.期待値・分散はこちらの記事の定義にしたがっている.


スポンサーリンク

正規性

Prop 1.1
二項分布 ${\rm Bin}(m|N,\mu)$ は正規化されている.すなわち
\[
\sum_{m=0}^{N}{\rm Bin}(m|N,\mu) = 1.
\]
証明


コメント

期待値・分散

Prop 1.2
二項分布 ${\rm Bin}(m|N,\mu)$ の期待値 $\mathbb{E}[m]$ ,分散 ${\rm var}[m]$ は
\begin{eqnarray*}
\mathbb{E}[m] & = & N\mu \\
{\rm var}[m] & = & N\mu(1-\mu)
\end{eqnarray*}
で与えられる.
証明

モデル

二項分布は「2つの状態のどちらか一方が必ず成り立つような試行を繰り返す」ことに対応する.もっとも単純な例は,表が出る確率が $\mu$ であるようなコインの裏表である.これは表か裏のどちらかの状態をとる.

たとえば歪んだ(つまり表と裏が等確率で出るとは限らない)コインがあって,表が出る確率が $\mu = \frac{3}{5}$ であったとする.このコインを100回投げたときに表が出る回数の期待値は
\[
\mathbb{E}[m] = N\mu = 100 \times \frac{3}{5} = 60\\
\]
となる.つまり60回程度は表だろうということを意味するから,妥当な結果だと感じる.

分散は「データの散らばり具合」である.二項分布の場合は,表と裏がどれだけバラバラに観測できるか,といった意味になる.実際,分散が最大(もっともバラバラ)になるような $\mu$ を求めてみよう.${\rm var}[m]$ を $\mu$ で微分するか,あるいは $\mu$ について平方完成すれば,最大値は $\mu = \frac{1}{2}$ のときであることがわかる.一方,$\mu = 0,1$ のときは分散は最小値 $ 0 $ をとる.もちろんこのときのデータは表か裏にかたよっていて,バラバラではないのは明らかだ.


スポンサーリンク