相関係数

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索
ファイル:Correlation examples2.svg
(xy) の組とそれぞれの相関係数を示している。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。

相関係数(そうかんけいすう、テンプレート:Lang-en-short)とは、2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数線形従属の関係にある。

たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば比較的に -1 に近い数字になる。

普通単に相関係数といえば、ピアソンの積率相関係数(Pearson product-moment correlation coefficient)をさす(本項で詳述する)。これの検定には偏差の正規分布を仮定する(パラメトリック)方法であるが、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数ケンドールの順位相関係数なども一般に用いられる。

相関係数は、あくまでも確率変数線形関係を計測しているに過ぎない。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり間隔尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。

  1. A が B を発生させる
  2. B が A を発生させる
  3. 第3の変数C が A と B を発生させる (この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)

相関分析とは 2 変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。

相関係数と相関の強さの関係は次のとおり。

相関係数 相関の強さ
0.7> 強い
0.4-0.7 中間の強さ
0.2-0.4 弱い
0.2< ない

定義

2 組の数値からなるデータ列 <math>\{(x_{i}, \, y_{i})\}</math> <math>(i=1,2,\ldots,n)</math> があたえられたとき、相関係数は以下のように求められる。

<math>\frac{ \displaystyle \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y}) }{ \displaystyle \sqrt{\sum_{i=1}^n(x_{i}-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_{i}-\bar{y})^2}}

</math> ただし、<math>\bar{x}</math>, <math>\bar{y}</math> はそれぞれデータ <math>x = \{x_{i}\}</math>, <math>y = \{y_{i}\}</math> の相加平均である。

これは、各データの平均からのずれを表すベクトル

<math>x-\bar{x} = (x_1-\bar{x},\ldots,x_n-\bar{x}),</math>
<math>y-\bar{y} = (y_1-\bar{y},\ldots,y_n-\bar{y})</math>

なす角の余弦である。

また、この式は共分散をそれぞれの標準偏差で割ったものに等しい。

関連項目