標準偏差

標準偏差（ひょうじゅんへんさ、テンプレート:Lang-en）は、分散の正の平方根である。統計値や確率変数の散らばり具合（ばらつき）を表す数値のひとつであり、σ や s で表す。例えば、ある試験でクラス全員が同じ点数であった場合（すなわち全員が平均値であった場合）、データにはばらつきがないので、標準偏差と分散は0になる。

二乗平均平方根 (RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。

母集団の標準偏差

N 個のデータ x₁, x₂, ..., x_N からなる母集団を考える。その母集団の相加平均（母平均）は、次のとおりに定義される:

テンプレート:Indent

このとき、母平均 m を使って次式で得られる量を分散（または母分散）と定義する。

テンプレート:Indent

この分散の正の平方根σを、母集団の標準偏差と定義する。分散はデータの散らばり具合を表す量であるとはいうものの、元のデータを2乗しているので、元のデータや平均値と直接比較することができない。そこで平方根をとって標準偏差にすると、平均値と同じ単位になるので比較ができるようになる。

統計値の標準偏差

母集団の中から, n 個のデータ x₁, x₂, ..., x_n からなる標本を抽出したとする。このとき、標本平均を次式で定義する:

テンプレート:Indent

この標本平均を使って次式で定義される量を標本の分散と呼ぶ。

テンプレート:Indent

標本の分散の正の平方根 s を標本の標準偏差と呼ぶ。

σ² を母集団の分散、s² を標本の分散とすると、

テンプレート:Indent

となることが示される。つまり、標本の分散は母集団の分散よりも小さくなる傾向がある^[1]。すなわち、標本の分散は母集団の分散の不偏推定量ではない。そこで、

テンプレート:Indent

を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。こうして定義される u² を不偏分散という。標本分散と呼ぶこともある。

u² の正の平方根 u を標本標準偏差ということもある。

不偏分散の平方根 u は、標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は次式で与えられる^[2]。

テンプレート:Indent \frac{ \Gamma \left( \frac{n-1}{2} \right) }{ \Gamma \left( \frac{n}{2} \right)} u</math>}}

ここで、u² は不偏分散である。

標本サイズが大きくなれば、標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を<math>n-1.5</math>で割った値の平方根として求められる^[3]。

テンプレート:Indent

名称の混乱

統計の教科書によっては <math>n-1</math> で割ったものが標本分散という名称になっており^[4]、用語が混乱して使用されている場合がある。母平均が不明であって、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い^[5]。英語圏では、不偏分散による標準偏差のことをSample Standard Deviation（標本標準偏差）と呼ぶことが多いが、そうでない場合もある^[6]。不偏分散u²の平方根を、不偏標準偏差 (unbiased standard diviation) と教える大学教員も多い。例えば、兵庫大学河野稔による健康統計学-散布度の解説が典型例であり、神戸大学中澤港による高崎経済大学非常勤講義　第４回「記述統計（２）：代表値」の解説も同じである。一方で、標準偏差の不偏推定量 D を不偏標準偏差と教える教員もいる。例えば、東北学院大学根市一志による標準偏差の不偏性がそれである。このように、同じ用語でも教員によって定義が異なるので注意が必要である。Wikipedia英語版では、テンプレート:Interlangの項目で、標準偏差の不偏推定量が説明されている。

確率変数の標準偏差

離散型確率変数

X を離散型確率変数とする。X のとりうる値が x₁, x₂, ..., x_n で X が x_i をとる確率を p_i で表す。ここで、テンプレート:Indent とする。このとき、

テンプレート:Indent

を確率変数 X の期待値という。また、

テンプレート:Indent

を確率変数 X の分散という。この分散の正の平方根を標準偏差という。

連続型確率変数

X を連続型確率変数とする。連続関数 f(x) が

テンプレート:Indent

を満たし、かつ X の値が区間 [x₁, x₂] に属する確率が

テンプレート:Indent

のとき、f(x) を X の確率密度関数という。このとき、

テンプレート:Indent

を確率変数 X の期待値という。また、

テンプレート:Indent

を確率変数 X の分散という。この分散の正の平方根を標準偏差という。

標準偏差の推定

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本数 N の標本標準偏差を s とすると母集団分布が正規分布ならば σ² は次の自由度 N - 1 の χ² 分布に従う。

<math>\chi^2=Ns^2/\sigma^2</math>

σ の推定値の95%信頼限界は P = 0.975 の χ² から P = 0.025 の χ² までの範囲で、s と σ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が少数の場合はかなり範囲が広いことに留意すべきである。

脚注

テンプレート:Reflist

関連項目

テンプレート:Link GA

↑ 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。
↑ 吉澤康和『新しい誤差論 - 実験データ解析法』共立出版、1989年、pp.78-79。
↑ Richard M. Brugger, "A Note on Unbiased Estimation of the Standard Deviation", The American Statistician (23) 4 p.32 (1969)
↑ 例: 東京大学教養学部統計学教室編『統計学入門』東京大学出版会、1991年。ISBN 4-13-042065-8。
↑ 分散または標準偏差の図による解説と具体例は、村瀬洋一他『SPSSによる多変量解析』オーム社、2007年、pp.52-53 (ISBN 4-27-406626-6) などを参照。
↑ Wikipedia英語版のテンプレート:Interlangの説明では、不偏分散による標準偏差（平均からの偏差平方和をn-1で割った値の平方根）のことをCorrected sample standard deviationと表記し、平均からの偏差平方和をnで割った値の平方根をUncorrected sample standard deviationまたはThe standard deviation of the sampleと表記している。アメリカのFundamentals of Engineering (FE) の試験問題では、Sample Standard Deviationを求めよと書かれていたら <math>n-1</math> で割るほうが答えである。しかしアメリカでも、異なる解説をする場合がある。例えば、ユタ大学 (テンプレート:Interlang) のTom Malloyは、統計学の学習者向けウェブページEstimating Parameters Web Pageで、Sample standard deviationを大文字Sという記号で表し、平均からの偏差平方和をnで割った値の平方根、と解説している。

[1] 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。

[2] 吉澤康和『新しい誤差論 - 実験データ解析法』共立出版、1989年、pp.78-79。

[3] Richard M. Brugger, "A Note on Unbiased Estimation of the Standard Deviation", The American Statistician (23) 4 p.32 (1969)

[4] 例: 東京大学教養学部統計学教室編『統計学入門』東京大学出版会、1991年。ISBN 4-13-042065-8。

[5] 分散または標準偏差の図による解説と具体例は、村瀬洋一他『SPSSによる多変量解析』オーム社、2007年、pp.52-53 (ISBN 4-27-406626-6) などを参照。

[6] Wikipedia英語版のテンプレート:Interlangの説明では、不偏分散による標準偏差（平均からの偏差平方和をn-1で割った値の平方根）のことをCorrected sample standard deviationと表記し、平均からの偏差平方和をnで割った値の平方根をUncorrected sample standard deviationまたはThe standard deviation of the sampleと表記している。アメリカのFundamentals of Engineering (FE) の試験問題では、Sample Standard Deviationを求めよと書かれていたら <math>n-1</math> で割るほうが答えである。しかしアメリカでも、異なる解説をする場合がある。例えば、ユタ大学 (テンプレート:Interlang) のTom Malloyは、統計学の学習者向けウェブページEstimating Parameters Web Pageで、Sample standard deviationを大文字Sという記号で表し、平均からの偏差平方和をnで割った値の平方根、と解説している。

[1]

[2]

[3]

[4]

[5]

[6]

標準偏差

目次

母集団の標準偏差

統計値の標準偏差

名称の混乱

確率変数の標準偏差

離散型確率変数

連続型確率変数

標準偏差の推定

脚注

関連項目

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ヘルプ

ツール