相関係数
相関係数(そうかんけいすう、テンプレート:Lang-en-short)とは、2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば比較的に -1 に近い数字になる。
普通単に相関係数といえば、ピアソンの積率相関係数(Pearson product-moment correlation coefficient)をさす(本項で詳述する)。これの検定には偏差の正規分布を仮定する(パラメトリック)方法であるが、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる。
相関係数は、あくまでも確率変数の線形関係を計測しているに過ぎない。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり間隔尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
- A が B を発生させる
- B が A を発生させる
- 第3の変数C が A と B を発生させる (この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
相関分析とは 2 変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。
相関係数と相関の強さの関係は次のとおり。
相関係数 | 相関の強さ |
---|---|
0.7> | 強い |
0.4-0.7 | 中間の強さ |
0.2-0.4 | 弱い |
0.2< | ない |
定義
2 組の数値からなるデータ列 <math>\{(x_{i}, \, y_{i})\}</math> <math>(i=1,2,\ldots,n)</math> があたえられたとき、相関係数は以下のように求められる。
- <math>\frac{ \displaystyle \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y}) }{ \displaystyle \sqrt{\sum_{i=1}^n(x_{i}-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_{i}-\bar{y})^2}}
</math> ただし、<math>\bar{x}</math>, <math>\bar{y}</math> はそれぞれデータ <math>x = \{x_{i}\}</math>, <math>y = \{y_{i}\}</math> の相加平均である。
これは、各データの平均からのずれを表すベクトル
- <math>x-\bar{x} = (x_1-\bar{x},\ldots,x_n-\bar{x}),</math>
- <math>y-\bar{y} = (y_1-\bar{y},\ldots,y_n-\bar{y})</math>
のなす角の余弦である。
また、この式は共分散をそれぞれの標準偏差で割ったものに等しい。