推計統計学
推計統計学(すいけいとうけいがく、inferential statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野を言う。推測統計学または推計学とも呼ばれる。
概要
19世紀後半から20世紀初頭にかけて発達した統計学は記述統計学(descriptive statistics)と呼ばれる。集団の規則性を求めることが統計学の目的であるが、記述統計学においては集団の規則性は大量の標本を観察することによってのみ発見することができるものだと考えられていた。そのため、記述統計学は資源が限られているなどの条件により少数の標本しか得られない現象について、その帰属する母集団の規則性を求めることができなかった。そのような事例に対応するために発達したのが推計統計学(inferential statistics)である。
統計学的推測は
- 点推定
- 区間推定
- 仮説検定
に細分される。 抽出集団から母集団を推定するため、抜き取り調査による品質管理や疫学調査の基礎となる学問である。
なお、近代以降の推計統計学理論は、母集団を規定する量=パラメータ(母数)を既定の固定値としてそれを推定するという方針に基づき発展を遂げてきたが、最近では、それに対し、パラメータを推定するにあたっての不確実性を確率変数として表現するベイズ統計学が注目されている。
点推定
抽出集団のデータを用いて母集団の分布を表現するパラメータを点として推定すること。
正規分布の場合、平均値と標準偏差の二つのパラメータで分布が表現される。 通常、推定値は記号に「^」をつける。 推定標準偏差は標本分散ではなく不偏分散を用いる(記事「標準偏差」を参照)。 標本数をnとすると、推定平均値と推定標準偏差は以下の式で算出される。 テンプレート:Indent </math> }} 母集団が歪んでいる場合など、平均値で対称になっていない場合、平均値を用いるよりも中央値や最頻値を用いたほうがその分布の特徴を捉えやすい場合がある。
区間推定
点推定で推定したパラメータのバラツキや信頼区間を示すこと。
正規分布の場合には標準誤差 (Standard Error, SE) を用いることが多い。平均値の標準誤差を特に SEM (standard error of the mean) と呼ぶ。 SEMは以下の式で算出される。
テンプレート:Indent </math>}}
また、より具体的に信頼区間(95%信頼区間、99%信頼区間などが用いられる)を表示することもある。
仮説検定
区間推定値から、母集団が特定の分布に従っているかどうかを検証すること。
具体的には、データが特定の分布に従う母集団から抽出されたとする仮説を立て、この仮説の検定を行う。この仮説を帰無仮説(きむかせつ)という。たとえば、「抽出集団は、平均値50、標準偏差○の母集団から抽出されたものである。」、「抽出集団Aと抽出集団Bはともに平均値、標準偏差が99%同じ母集団から抽出されたものである。」といった仮説が帰無仮説となる。こうした帰無仮説から予想される統計量と、実際に抽出集団のデータから計算された統計量が一致する確率(p値という)を求め、その確率が予め決めた基準(有意水準、5%または1%が使用されることが多い)よりも小さい(つまり「起こりそうもない」)場合には「有意差がある」として、上の仮説は棄却される。
仮説検定には様々な手法があり、帰無仮説により使い分ける必要がある。
検定手法
統計学的検定手法は、データが特定の確率分布に従うことを仮定する「パラメトリックな手法」と、それを仮定しない「ノンパラメトリックな手法」に分けられる。
- パラメトリックな検定手法
- ノンパラメトリックな検定手法
教材
- 心理学の初学者向けの統計テキストは、推計統計学に分量の多くを割いている。文系向けに書かれた、数式や証明にこだわらずに基本的な考え方や技法を伝えるものも増えている。
- サリドマイドに関する論文である「アザラシ状奇形の原因 -サリドマイド仮説の成立に関する統計学上の争点について」(吉村功)[1]も、大学の講義などでは推計統計学の好例として教材に使用されることがある。