確率分布
テンプレート:出典の明記 確率変数の確率分布(かくりつぶんぷ, テンプレート:Lang-en)とは、確率変数テンプレート:要曖昧さ回避の各々の値に対して、その起こりやすさを記述するものである。
目次
概要
例えば、「サイコロを二つ振ったときの出た目の和」は確率変数であるが、その分布は次の表のように書くことができる。
出た目の和 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
確率 | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
すなわち、確率分布は値に確率を対応させる関数ということができる。確率変数がこのように離散的な値しかとらないときは上のような理解で十分である。しかし、例えば「次に電話がなるまでの時間」といった連続的な値をとる確率変数の分布はこのような形では表現できず、測度の概念が必要になる。
「次に電話がなるまでの時間」の分布の一部を表にしたとき、次のようになったとする。
次の電話 | 1時間以内 | 1 - 2時間後 | 2 - 3時間後 | 3 - 4時間後 | 4時間以上先 |
---|---|---|---|---|---|
確率 | 1/2 | 1/4 | 1/8 | 1/16 | 1/16 |
この表だけでは「次に電話がなるまでの時間」を正確に記述しているとはいえない。完全なものにするためには、次の電話がa - b時間後になる確率をすべて記述する必要がある。「次に電話がなるまでの時間」を X と書くことにすれば、この確率は テンプレート:Indent と書ける。累積分布関数(るいせきぶんぷかんすう cumulative distribution function, CDF) FX を テンプレート:Indent で定めれば、 テンプレート:Indent のように、一変数関数で分布を表現できるので便利である。さらに、FX の導関数 fX は確率密度関数(frequency functionまたは probability density function(PDF)) と呼ばれ、確率は積分を用いて テンプレート:Indent と書ける。
通常、連続値をとる確率変数の分布は確率密度関数を用いて記述される。なぜかというと、確率密度関数は初等関数で書けるが、累積分布関数は書けない場合が多いからである。
公理主義的な確率論においては、d次元ベクトルテンプレート:要曖昧さ回避値確率変数の確率分布とは、その確率変数の引き起こす像測度のことである。この測度は d次元ユークリッド空間上の確率測度であり、ユークリッド空間の部分集合に対して、確率変数の値がその集合に入る確率を与える関数となる。
単に確率分布というときは、d次元ユークリッド空間などのよく使われる可測空間上で定義された確率測度のことをいう。ただの確率測度と違って空間に散らばっている様子がグラフなどの目に見える形で表現できるので「分布」と呼ばれる。
確率論で、確率変数の分布を考えるのは、その変数だけを確率論的な議論の対象にしたい場合である。例えば、確率変数がある値を取る確率や、期待値、分散といった量は変数の分布が分かれば計算できる量である。 逆に分布を考えることによって隠れた変数ωと確率変数との対応関係は失われてしまい、他の確率変数との関連性も不明になる。例えば、確率変数XとYの分布がそれぞれPXとPYのように与えられたとしても、ふたつの変数の関連性は分からないので、X+Y がある値を取る確率や、積 X Y の期待値、X+Y の分散といった量は計算できない。このような量を計算したいときは、XとYの結合分布が必要となる。
よく使われる確率分布にはそれぞれ名前がついており性質がよく研究されている。このような分布をもつ確率変数に対して研究の結果を利用することができる。例えば、確率変数の分布が平均 0 分散 1 の正規分布だった場合、その変数が 2 以上の値を取る確率は数表から 2.28% である。
定義
確率分布
- 1次元確率分布とは (R, B(R)) 上で定義された確率測度のことである。
- 同様に d 次元確率分布とは (Rd, B(Rd)) 上で定義された確率測度のことである。
確率変数の確率分布
実数値確率変数 X の分布 PX は像測度であるから テンプレート:Indent で定義される確率測度のことである。
同様に Rd 値確率変数 X の分布 PX は テンプレート:Indent で定義される確率測度のことである。
確率変数 X の分布がある確率分布 μ に一致するとき、X は μ に従う確率変数であるという。例えば、「X は平均 0 分散 1 の正規分布に従う」のように使い、これを記号で テンプレート:Indent のように書く。
分布関数
実数値確率変数 X の分布関数(ぶんぷかんすう, distribution function)あるいは、一次元確率分布 PX の分布関数とは テンプレート:Indent で与えられる関数 FX のことである。累積分布関数 (るいせきぶんぷかんすう, cumulative distribution function) ともいう。
定義から分布関数は右連続であるが、左連続かどうかはわからない。これが連続であるときに確率分布は連続であるという。分布関数が高々可算個の値しかとらない場合は確率分布は離散であるという。
確率密度関数
確率分布 PX が絶対連続であるというのは、任意の(ルベーグ測度に関しての)零集合 A にたいして、 テンプレート:Indent が成り立つことを言う。これは測度の絶対連続性と同じである。 確率分布 PX が絶対連続のとき、測度論のラドン-ニコディムの定理によりラドン-ニコディム微分 fX が存在する。この fX のことを確率密度関数(frequency functionまたは probability density function(PDF)) と呼ぶ。 PX は確率密度関数を用いて テンプレート:Indent と書くことができる。とくに A が区間の場合は テンプレート:Indent となる。区間の端点はいれてもいれなくても確率は同じである。
確率質量関数
確率分布 PX が離散のときに確率密度関数に対応する関数として確率質量関数(かくりつしつりょうかんすう, probability mass function)(単に確率関数(かくりつかんすう、probability functionまたはprobability mass function、random function、stochastic function)ともいう)を使うことができる。確率変数 X のとる値の集合が S = {x1, x2, ...} だとすると確率質量関数は テンプレート:Indent で定まる関数 fX のことである。
同時分布と周辺分布
複数の確率変数の挙動を多次元の確率分布で表したものを同時分布(どうじぶんぷ, simultaneous distribution)という。同時分布から各変数の分布だけを取り出したものを周辺分布(しゅうへんぶんぷ, marginal distribution)と呼ぶ。これらについては同時分布の項目に詳しい。
代表的な確率分布
代表的な確率分布は離散型または絶対連続型のもののみを挙げる。他には離散でも連続でもないもの、連続であるが絶対連続ではないものなどが考えられるが通常現れる分布ではない。
離散型
テンプレート:Main サイコロを投げた時に出る目の数字など、確率変数が離散的な値をとる場合の確率分布は離散型確率分布である。
離散型の分布は母数と台 S と確率質量関数 f で特徴付けられる。台というのは確率変数のとる値の集合のことである。
- 離散一様分布
- 二項分布
- 母数:成功確率 p と試行回数 n
- 台:{0, 1, ..., n}
- 確率質量関数:f(k) = nCk pk(1 - p)1-k
- これは成功確率 p の試行を独立に n 回行ったときの成功回数の分布である。
- ポアソン分布
- 負の二項分布
- ベルヌーイ分布
- 超幾何分布
- 多項分布
- ゼータ分布、ジップ分布
連続型
テンプレート:Main ある地点での通行人の体重など、確率変数が連続的な場合の確率分布は連続型確率分布である。
絶対連続な分布は母数と台と確率密度関数 f で特徴付けられる
- 連続一様分布
- 正規分布
- 母数:平均 μ と分散 σ2
- 確率密度関数: <math>f(x)={1 \over \sqrt {2\pi \sigma^2}}\cdot\exp\!\left(-{(x-\mu)^2\over 2\sigma^2}\right)</math>
- 指数分布
- t分布
- カイ2乗分布
- ガンマ分布
- ベータ分布
- F分布
- コーシー分布
- アーラン分布
- 三角分布
- ラプラス分布
- レイリー分布
- ロジスティック分布
- パレート分布
- ワイブル分布
確率分布の利用法
確率変数の確率分布が与えられると、その変数に関する確率・期待値・分散などが以下のように計算できる。
X は連続値をとる確率変数で密度関数は fX であるとする。 Y は離散値をとる確率変数で台は S = {y1, y2, ...} で質量関数は fY であるとする。
確率の計算
- X が a 以上 b 以下の値を取る確率
- <math>P(a \leq X \leq b) = \int_a^b f_X(x) dx</math>
- Y の値が集合 <math>T \subset S</math> に入る確率
- <math>P(Y \in T) = \sum_{y_k \in T} f_Y(y_k)</math>
期待値の計算
関数 g が与えられたときに g(X) と g(Y) の期待値は テンプレート:Indent とくに テンプレート:Indent
分散の計算
X と Y の分散は テンプレート:Indent
変数変換
確率変数の変数変換による新しい変数の密度関数は、元の変数の密度関数で書くことができる。この公式は重積分における変数変換とほぼ同様である。
確率密度関数の変数変換公式
Rd から Rd への関数 T により、Rd 値確率変数 X と Y が テンプレート:Indent と書けているとすると、Y の密度関数は X の密度関数を用いて テンプレート:Indent となる。ただし J はヤコビアン とする。
例えばボックス-ミューラー変換は (0, 1]2 上の一様分布に従う確率変数 X = (X1, X2) を テンプレート:Indent によって変換する。X の密度関数は テンプレート:Indent であり、上の公式を当てはめると Y の密度関数は テンプレート:Indent となり、Y が二次元の標準正規分布に従うことが分かる。このように単純な分布を持つ変数を変換して、複雑な分布を作る操作は計算機による乱数の生成で重要となる。
確率変数の和の確率分布
2つの確率変数 X と Y の和 X + Y の確率分布や差 X - Y の確率分布は変数変換公式により計算できる。特に X と Y が独立で、確率密度関数がそれぞれ fX と fY だったとすると、和と差の確率密度関数は テンプレート:Indent となる。
とくに和の確率密度関数は二つの分布の確率密度関数の畳み込みである。また、特性関数は確率密度関数のフーリエ変換であり、畳み込みのフーリエ変換は周波数領域における積であることから、和の特性関数は二つの分布の特性関数の積となる。
なお、確率変数の和の確率分布が元の分布族に従う場合、その分布は再生性があるという。
関連項目