回帰分析
回帰分析(かいきぶんせき、テンプレート:Lang-en-short)は、従属変数(目的変数)と連続尺度の独立変数(説明変数)の間に式を当てはめ、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析することである。
概要
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費(<math>C</math>)を国民所得(<math>Y</math>)で説明する消費関数が<math>C=a+cY</math>という形で表されるとする。この例では、消費が従属変数、国民所得が独立変数に対応する。以下で述べる計算方法によって<math>a,c</math>といった係数の大きさを推計する。
説明変数が1つならば単回帰分析、2つ以上ならば重回帰分析と呼ぶことがある。 普通用いられる方法は上式のような1次式モデルを用いる線形回帰であるが、その他のモデルを用いる非線形回帰の方法(例えばロジスティック回帰など)もある。
推計方法
回帰分析で用いられる代表的な推計方法として、最小二乗法がある。
最小二乗法の概要は次のとおりである。はじめに回帰式(目的変数を説明変数で計算する式)を設定する。 次に、回帰式の係数を求めることが目的となるが、「目的変数の測定値と(説明変数の測定値および回帰式を用いて求めた)目的変数の推定値の差の2乗平均」が最小になるように、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求める。
説明変数同士の相関
マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は無相関という仮定が入っている。そのため、説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。
- 例: 小学校での定期テスト得点から重回帰で分析する場合に、理科の点数を従属変数に、算数と国語を説明変数にした場合、算数が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは算数と国語の点数に強い相関が両者にあるからである。この場合は算数と国語の平均点と、算数と国語の得点の差というように和と差に数字を加工すると、この2つは相関がたいてい低く、かつ解釈しやすい。算数と国語の得点の差は、算数の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからである。
心理学やマーケティングでは、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルが構築され、普及している。
語源
回帰分析は語源的には回帰効果(平均への回帰)に由来する。回帰効果は相関(直線的な関係)が低い場合に顕著に現れる。しかし回帰分析では必ずしも直線的関係を仮定しない。また「目的変数yを説明変数xに回帰する」といい、「回帰」という言葉が由来とは異なる意味に使われている。
解析ソフト
- NAG
- IMSL
- R言語 - 統計解析言語。回帰分析ほか多くの統計関数を標準装備したフリーウェア。『モデル式』でモデル記述や当てはめが容易。他アプリケーションのファイル取込やODBC接続対応。FDA公認。CRANという仕組みで世界の膨大なソフトを無償利用可能。可視化機能に優れ、日本語対応。マルチプラットフォーム。
- Stata