T検定

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

テンプレート:小文字 t検定(ティーけんてい)とは、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学検定法の総称である。母集団正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均標準偏差にはよらない(ただし自由度による)ことを利用している。2組の標本について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。

スチューデントのt検定(Student's t-test)とも呼ばれるが、これは統計学者のウィリアム・ゴセットが雇用者であるギネスビール社に本名使用を許されずStudent というペンネームで最初の論文を発表した(1908年)ためである。

種類

t検定は大きく次のように分けられる。

  • 二つの母集団がいずれも正規分布に従うと仮定した上での、平均が等しいかどうかの検定。
    • 標本が対になっている、つまり1組の標本のメンバー各々と、もう1組の特定のメンバーとの間に特別な関係がある場合(例えば、同じ人に前後2回調査する場合、夫と妻とで比較する場合など)。
    • 標本が独立で、比較する二つの群の分散が等しいと仮定できる場合(等分散性の仮定)。
    • 標本が独立で、等分散性が仮定できない(異分散)場合。これは正確にはウェルチのt検定と呼ばれる。
  • 正規分布に従う母集団の平均が、特定の値に等しいかどうかの検定。
  • 回帰直線勾配が0と有意に異なるかどうかの検定。

方法

一群のt検定

母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。

<math> t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}, </math>

<math>\overline{x}</math>は標本平均であり sは 標本の標準偏差 である。標本サイズは nであり、t検定における自由度はn − 1である。

回帰分析の係数

次のような回帰分析のモデルを考える。

<math> Y_i = \alpha + \beta x_i + \varepsilon_i, </math>

xi, i = 1, ..., nは既存の説明変数であり、 αβは未知の係数である。そして εiは独立に同一の正規分布に従った期待値0で未知の分散σ2であるランダムな誤差とする。 Yi, i = 1, ..., nは観測値である。この際、 βがある特定の値β0と等しいかどうかをテストしたい (多くの場合β0は 0である。何故なら、βが0であればxy に相関性が無いと言う事になり、0以外の値であればxy は相関しているということになる)。

<math>

\begin{align} \widehat\alpha, \widehat\beta & = \text{least-squares estimators}, \\ SE_{\widehat\alpha}, SE_{\widehat\beta} & = \text{the standard errors of least-squares estimators}. \end{align} </math> すると

<math>

t_\text{score} = \frac{\widehat\beta - \beta_0}{ SE_{\widehat\beta} } </math> 帰無仮説が正しければ、この数値はt値の自由度がn − 2に従う。

<math>

SE_{\widehat\beta} = \frac{\sqrt{\frac{1}{n - 2}\sum_{i=1}^n (Y_i - \widehat y_i)^2}}{\sqrt{ \sum_{i=1}^n (x_i - \overline{x})^2 }} </math>

<math>

\begin{align} \widehat\varepsilon_i & = Y_i - \widehat y_i = Y_i - (\widehat\alpha + \widehat\beta x_i) = \text{residuals} = \text{estimated errors}, \\ \text{SSE} & = \sum_{i=1}^n \widehat\varepsilon_i^{\;2} = \text{sum of squares of residuals}. \end{align} </math>

すると<math> t_\text{score} </math> は

<math> t_\text{score} = \frac{(\widehat\beta - \beta_0)\sqrt{n-2}}{ \sqrt{\text{SSE}/\sum_{i=1}^n \left(x_i - \overline{x}\right)^2} }. </math>

独立二群の平均値の差の検定

一つ目の母集団の平均値μ1が二つ目の母集団の平均値μ2と等しいかどうかの帰無仮説を検定する際に使用する。言い換えるとμ1μ2=0かどうかの帰無仮説を検定する。

t検定を始める前に

実務的なデータ分析では、母集団が様々な前提を満たしているかどうかを調べるため、以下のような検定をt検定の前段階に行う場合がある。

等分散の場合

比較する両群をX1, ..., XmおよびY1, ..., Yn(標本サイズはmおよびn)とする。両群から標本平均<math>\overline{X}</math>および<math>\overline{Y}</math>、ならびに不偏分散<math>U_x</math>および<math>U_y</math>を求める。 両群を合わせた分散の推定値<math>U_e</math>を

<math>U_e=\frac{(m-1)U_x+(n-1)U_y}{m+n-2}</math>

により算出する。

これから検定統計量t0

<math>t_0=\frac{|\overline{X}-\overline{Y}|}{\sqrt{U_e\left(\frac{1}{m}+\frac{1}{n}\right)}}</math>

により算出する。 両群の平均が等しい場合には「統計量T自由度ν = m + n – 2 のt分布に従う」ので、これを帰無仮説として両側検定を行う。 このt分布における<math>t_0</math>の上側のp値を求め、有意水準αと比較する(あるいは数表で比較を行う)。p < α ならば帰無仮説は棄却され、「両群の平均には有意差がある」といえる。

異分散の場合(ウェルチのt検定)

テンプレート:Main 前と同じ標本(ただし分散が等しくない)を対象とする。

検定統計量t0

<math>t_0=\frac{|\overline{X}-\overline{Y}|}{\sqrt{\frac{U_x}{m}+\frac{U_y}{n}}}</math>

により算出する。 t分布の自由度νは、

<math>\nu=\frac{(\frac{U_x}{m}+\frac{U_y}{n})^2}{\frac{U_x^2}{m^2(m-1)}+\frac{U_y^2}{n^2(n-1)}}</math>

であるが、これは整数になるとは限らないので、10未満の場合は小数自由度のt分布表を利用する。10以上ならば小数部を切り捨て整数部のみを使用してよい。

関連二組の差の平均値のt検定

n 対のデータがあるとし、対応する2変数をXiYi 、両者の差をdi = Xi - Yi とする(i = 1, 2, ... , n)。di の平均を<math>\overline{X}_D</math>とする。差の母集団の平均値μdが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。

検定統計量 t0

<math>t = \frac{\overline{X}_D - \mu_0}{s_D/\sqrt{n}}. </math>

により算出する。 t分布の自由度はν = n -1となる。

t検定の代替手段

t検定は、母集団が正規分布をしており標本の分散がχ2 分布をしているという前提の下において、「完全に」正確な確率を計算することができる(ウェルチ検定では「ほぼ」正確な値を計算できる)。逆の言い方をすると、母集団が正規分布に従っていない場合は、標本平均はt値からは多かれ少なかれ乖離する。実務的に標本から母集団が正規分布をしているかどうかという事を判断する事は、色々な検定方法があるとは言うものの、非常に困難である。ただし、中心極限定理によると、母集団の分布が正規分布に従わない標本でさえも、サンプル数が多くなればなるほど、標本平均は正規分布に近似していく。したがって、標本サイズが多ければ多いほど、標準検定値である<math>\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}</math>はZ値に近似することになる。このような基礎に基づくと、母集団が正規分布から完全に逸脱した分布に従っていて、標本サイズが十分に大きな場合(大学の初等の統計の教科書などではn>30などと載っている場合があるが、勿論多ければ多いほど良い)、Z検定で近似的な確率を計算できる。ただしt値は自由度が上がるとZ値に近似するため、計算上はt検定を用いても殆ど大差ない結果を得られる(哲学的には異なるが)。それがt検定が頑強(robust)であると言われる所以である。

ノンパラメトリック手法

t検定は母集団の正規分布を前提とするパラメトリック検定であるが、この条件が満たされず、さらに標本サイズが小さいと、t検定で近似することも困難となる。そういった場合にはノンパラメトリック検定を用いる方法がある。ノンパラメトリック検定は汎用性を重視し、効率性を犠牲にしているというものの、場合によっては統計のパワー(1 − β)がt検定に比べてはるかに高い。

を用いることができる。ただしt検定やZ検定が母集団の平均値に注目して仮説を立てるのに対して、ノンパラメトリック検定ではランキング、中央値や分布などに注目して仮説を立てることに注意が必要。