要約統計量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

要約統計量ようやくとうけいりょう)とは、標本分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量基本統計量代表値ともいう。

正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度歪度などの高次モーメントから求められる統計量を用いる。

正規分布から著しく外れた場合には、より頑健な中央値四分位点最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。

モーメントから求められる要約統計量

テンプレート:Main N 個のデータ <math>x_1,\ x_2,\ \dots,\ x_N</math> に対する統計量を考える。まず、平均値 <math>\mu</math> と、平均値まわりの m 次中央モーメント[1] <math>\mu_m</math> を

<math>\mu = \frac{1}{\,N\,} \sum_{i = 1}^N x_i</math>
<math>\mu_m = \frac{1}{\,N\,} \sum_{i = 1}^N (x_i - \mu)^m</math>

で定義する。

平均
原点まわりの1次モーメント <math>\mu</math>。和を個数で割ったもの。
分散、標準偏差
2次中央モーメントから求められる統計量。分布の広がりを表す。分散は <math>\sigma^2 = \mu_2</math>、標準偏差は <math>\sigma = \sqrt{\mu_2}</math>。
歪度
3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。<math>\gamma_1 = \mu_3 / \sigma^3</math>。
尖度
4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。<math>\gamma_2 = \mu_4 / \sigma^4 - 3</math>。ただし、3 を引かない定義もある。

順序から求められる要約統計量

テンプレート:Main 以下、昇順にソートされた N 個のデータ <math>x_1 \le x_2 \le \dots \le x_N</math> に対する統計量(順序統計量)を考える。

中央値
メジアン、メディアン (median) ともいう。データの大きさに関してちょうど中央に当たるデータ x(N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2xN / 2 + 1 の平均とする)。
四分位点
集団を値の大きさで4等分するとき、その境界となる値。x(N + 3) / 4 を第1四分位点、x(3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。
最小値・最大値
集団に含まれる最も小さい値 x1 と、最も大きい値 xN

これらの統計量を視覚化するために、箱ひげ図が用いられる。

度数から求められる要約統計量

最頻値
モード (mode)、並み数 ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。

関連項目

脚注

  1. 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。