共分散
共分散(きょうぶんさん、covariance)とは、2 組の対応するデータ間での、平均からの偏差の積の平均値である。2 組の確率変数 X, Y の共分散 Cov(X, Y) は、E で期待値を表すことにして、
- <math>\mathrm{Cov}(X, Y) = \mathrm{E}[(X - \mathrm{E}[X])(Y - \mathrm{E}[Y])]</math>
で定義される。
例
例として、中学生のテストの成績から、山田さんの偏差の積を計算する。
数学 国語 平均点 50 50 山田 80 40 偏差 30 -10 偏差の積 30×(-10) = -300
生徒全員について、偏差の積を平均したものが数学と国語の共分散になる。
数学が平均より高い生徒が、国語も平均より高いテストの点を取っていると、共分散の合計は大きな正の値をとる。逆の関係があれば、大きな負の値をとる。共分散が 0 なら特にそのような関連性はないと考えられる。ちなみにこの関連性は直線的なもの(1 次関数)を指している。
共分散は、もとの値の大きさで数値が決まるので、単位が違う変数を複数比較するときなどに解釈が難しい。たとえば市町村単位で、その町ごとの人口と、ラーメン店の売上の共分散を計算しても、数字の意味がわかりにくい。
そこで関係を見る場合には相関係数を使うことが一般的である。共分散の値を、各変数(例なら国語と数学)の標準偏差の積で割ったものが相関係数となる。相関係数は -1 から 1 までの値をとる。1 であれば 2 つの変数の値は完全に同期していることになる。対象によってかなり相関係数の意味は変わってくるが、一例としてはアンケートでは
-1 ~ -0.7 強い負の相関 -0.7 ~ -0.4 かなりの負の相関 -0.4 ~ -0.2 やや相関あり -0.2 ~ 0 ほとんど相関なし 0 ~ 0.2 ほとんど相関なし 0.2 ~ 0.4 やや相関あり 0.4 ~ 0.7 かなりの正の相関 0.7 ~ 1 強い正の相関
という見方もある。
因果関係
共分散や相関係数はしばしば因果関係の根拠として扱われることが多い。しかし、共分散自身はたんに 1 つの対象の 2 つの測定値が対応しているということの指標に過ぎないので、因果関係があるかどうかは示してくれない。あくまで数値から意味を解釈する研究者しだいである。ただし共分散構造分析など、複数の共分散を分析する手法では因果関係があるかどうかを直接検証する手法がある。因果関係と相関関係の違いについては擬相関などいくつかの代表的なパターンがある。