分散
分散(ぶんさん、variance)は、確率論において、確率変数の2次の中心化モーメントの事で、確率変数の分布が期待値からどれだけ散らばっているかを示す値。統計学においては、確率変数の分散だけでなく、標本が標本平均からどれだけ散らばっているかを示す指標として標本分散が用いられる。
確率変数の分散
2乗可積分確率変数<math>X</math>の分散は期待値を<math>E</math>で表すと
- <math>V(X)=E((X-E(X))^{2})\,</math>
で定義される。また式変形して
- <math>V(X)=E(X^{2})-(E(X))^{2}\,</math>
とも書ける。
チェビシェフの不等式から、任意の正数<math>\varepsilon</math>に対して、
- <math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math>
が成り立つが、これは分散が小さくなる程に期待値の近くに変数が分布している事を示す大まかな評価である。
性質
- <math>V(X) \ge 0 </math>
- <math>V(aX + b) = a^2 V(X) </math>
- X と Y が独立な場合、
- <math>V(X+Y)=V(X)+V(Y)</math>
- <math>V(X+Y) = V(X) + V(Y) + 2 Cov(X, Y)</math>
を満たす。
母分散
<math>m</math>個のデータ<math>x_{1}</math>,<math>x_{2}</math>, …,<math>x_{m-1}</math>,<math>x_{m}</math>からなる母集団があって、<math>\bar{x}</math>をそのデータの相加平均とした時に、<math>(\bar{x}-x_{i})^{2}</math>の相加平均
- <math>{\sigma}^{2}=\frac{1}{m}\sum_{i=1}^{m}(\bar{x}-x_{i})^2</math>
で表される<math>\sigma^{2}</math>を母分散と言う。
標本分散
<math>n</math>個のデータ<math>x_{1}</math>,<math>x_{2}</math>, …,<math>x_{n-1}</math>,<math>x_{n}</math>からなる標本があって、<math>\bar{x}</math>をそのデータの相加平均とした時に、<math>(\bar{x}-x_{i})^{2}</math>の相加平均
- <math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(\bar{x}-x_{i})^2</math>
で定義される<math>s^{2}</math>を標本分散 (sample variance) と言う(<math>s</math>は標準偏差と呼ばれる)。なお、後述の不偏分散を標本分散と呼ぶ文献もある。
定義より、
- <math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}</math>
となるから、標本分散は、2乗の相加平均と相加平均の2乗との差に等しい。従って、手計算等ではこの式を用いて分散の計算を容易にすることができる。 しかし、コンピュータでこの式を用いて標本分散を計算すると、コンピュータが有限桁しか扱えないことから桁落ちによる誤差が発生する可能性がある。
不偏分散
上記の標本分散は、一般にその期待値が母分散(母集団の分散)よりも若干小さくなる。そこで統計量として
- <math>u^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(\bar{x}-x_i)^{2}</math>
を用いると、期待値が母分散に等しくなる統計量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散 (unbiased variance) と呼ぶ。定義式より明らかなように、標本数が十分多ければ、不偏分散と標本分散の値は殆ど等しい。