判別分析

出典: フリー百科事典『ウィキペディア(Wikipedia)』
2014年5月30日 (金) 04:26時点におけるMoreNet (トーク)による版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先: 案内検索

判別分析(はんべつぶんせき)は、事前に与えられているデータが異なるグループに分かれることが明らかな場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数)を得るための手法。

判別関数には超平面・直線による線型判別関数(linear discriminant function)と、非線型の場合には超曲面・曲線によるマハラノビス汎距離(Mahalanobis' generalized distance)による非線型判別関数とがある。

3つ以上のグループの判別も可能である。これは重判別分析(multiple discriminant analysis)や正準判別分析と呼ばれる。

判別式の妥当性は、誤判別率などで評価できる。適した変数選択と判別方法にもとづいて分析することが必要であり、判別式(のみならず変数選択)の妥当性を検証する手法として、元のデータから1つだけ外して判別(モデル)式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、1つとって置き法(leave-1-out)などが一般に用いられる。

入試を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。

このような教師データが存在する場合(予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる)、判別分析により、過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。

分析法

線型判別関数 (y=a1x1+a2x2+…+anxn+a0) の求め方を以下に示す。

  1. 第一群、第二群についてそれぞれ平方和・積和を求める。
    Wii=Σ(xi-x)2,Wij=Σ(xi-x)(xj-x)
  2. 第一群と第二群の平方和・積和を、同じ2変数について足し、自由度N1+N2-2で除す。
    Sij=(Wij(第一群)+Wij(第二群))/(N1+N2-2)
  3. Sijを、そのij列に対応させて分散共分散行列Sとし、各変数にかかる係数をn行1列に並べた行列をA、第一群の各変数の平均値から第二群の各変数を引いた数xi(第一群)-xi(第二群)をn行1列に並べた行列をXとすると以下の式が成り立つ。
    SA=X ゆえに A=S-1X
  4. これにより各変数にかかる係数を求めることができる。
    定数項は、a0=-1/2[a1{x1(第一群平均値)+x1(第二群平均値)}+…+an{xn(第一群平均値)+xn(第二群平均値)}]
  5. 判別得点yが正のとき第一群、負のとき第二群と判別される。
    変数が標準化されていれば、係数の大きさは、そのままその変数が判別に与える影響の大きさである。
    変数が定性的な場合は、ダミー変数を用いる。
    y=a11x11+a12x12+…a21x21+a22x22+…an1xn1+an2xn2+…a0
    ここに、xij:xiのj番目のカテゴリーに反応するとき1、しないとき0。

関連項目