分散

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

分散(ぶんさん、variance)は、確率論において、確率変数の2次の中心モーメントで、確率変数の分布期待値からどれだけ散らばっているかを示す統計学においては、確率変数分散だけでなく、標本標本平均からどれだけ散らばっているかを示す指標として標本分散が用いられる。

確率変数の分散

2乗可積分確率変数<math>X</math>の分散期待値を<math>E</math>で表すと

<math>V(X)=E((X-E(X))^{2})\,</math>

定義される。また式変形して

<math>V(X)=E(X^{2})-(E(X))^{2}\,</math>

とも書ける。

チェビシェフの不等式から、任意の<math>\varepsilon</math>に対して、

<math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math>

成り立つが、これは分散が小さくなる程に期待値の近くに変数分布しているを示す大まかな評価である。

性質

XY確率変数ab を定数とすると、

<math>V(X) \ge 0 </math>
<math>V(aX + b) = a^2 V(X) </math>
<math>V(X+Y)=V(X)+V(Y)</math>
<math>V(X+Y) = V(X) + V(Y) + 2 Cov(X, Y)</math>

を満たす。

母分散

<math>m</math>個のデータ<math>x_{1}</math>,<math>x_{2}</math>, …,<math>x_{m-1}</math>,<math>x_{m}</math>からなる母集団があって、<math>\bar{x}</math>をそのデータ相加平均とした時に、<math>(\bar{x}-x_{i})^{2}</math>の相加平均

<math>{\sigma}^{2}=\frac{1}{m}\sum_{i=1}^{m}(\bar{x}-x_{i})^2</math>

表される<math>\sigma^{2}</math>を母分散と言う。

標本分散

<math>n</math>個のデータ<math>x_{1}</math>,<math>x_{2}</math>, …,<math>x_{n-1}</math>,<math>x_{n}</math>からなる標本があって、<math>\bar{x}</math>をそのデータ相加平均とした時に、<math>(\bar{x}-x_{i})^{2}</math>の相加平均

<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(\bar{x}-x_{i})^2</math>

で定義される<math>s^{2}</math>を標本分散 (sample variance) と言う(<math>s</math>は標準偏差と呼ばれる)。なお、後述の不偏分散標本分散と呼ぶ文献もある。

定義より、

<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}</math>

となるから、標本分散は、2乗の相加平均相加平均の2乗との差に等しい。従って、手計算等ではこのを用いて分散計算を容易にすることができる。 しかし、コンピュータでこのを用いて標本分散計算すると、コンピュータが有限桁しか扱えないことから桁落ちによる誤差発生する可能性がある。

不偏分散

上記の標本分散は、一般にその期待値母分散母集団分散)よりも若干小さくなる。そこで統計量として

<math>u^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(\bar{x}-x_i)^{2}</math>

を用いると、期待値母分散に等しくなる統計量が得られる。 これを母分散不偏推定量であるとの意味不偏分散 (unbiased variance) と呼ぶ。定義式より明らかなように、標本数が十分多ければ、不偏分散標本分散の値は殆ど等しい

関連項目