確率分布

テンプレート:出典の明記確率変数の確率分布（かくりつぶんぷ, テンプレート:Lang-en）とは、確率変数テンプレート:要曖昧さ回避の各々の値に対して、その起こりやすさを記述するものである。

概要

例えば、「サイコロを二つ振ったときの出た目の和」は確率変数であるが、その分布は次の表のように書くことができる。

出た目の和	2	3	4	5	6	7	8	9	10	11	12
確率	1/36	2/36	3/36	4/36	5/36	6/36	5/36	4/36	3/36	2/36	1/36

すなわち、確率分布は値に確率を対応させる関数ということができる。確率変数がこのように離散的な値しかとらないときは上のような理解で十分である。しかし、例えば「次に電話がなるまでの時間」といった連続的な値をとる確率変数の分布はこのような形では表現できず、測度の概念が必要になる。

「次に電話がなるまでの時間」の分布の一部を表にしたとき、次のようになったとする。

次の電話	1時間以内	1 - 2時間後	2 - 3時間後	3 - 4時間後	4時間以上先
確率	1/2	1/4	1/8	1/16	1/16

この表だけでは「次に電話がなるまでの時間」を正確に記述しているとはいえない。完全なものにするためには、次の電話がa - b時間後になる確率をすべて記述する必要がある。「次に電話がなるまでの時間」を X と書くことにすれば、この確率はテンプレート:Indent と書ける。累積分布関数（るいせきぶんぷかんすう cumulative distribution function, CDF） F_X をテンプレート:Indent で定めれば、テンプレート:Indent のように、一変数関数で分布を表現できるので便利である。さらに、F_X の導関数 f_X は確率密度関数（frequency functionまたは probability density function(PDF)）と呼ばれ、確率は積分を用いてテンプレート:Indent と書ける。

通常、連続値をとる確率変数の分布は確率密度関数を用いて記述される。なぜかというと、確率密度関数は初等関数で書けるが、累積分布関数は書けない場合が多いからである。

公理主義的な確率論においては、d次元ベクトルテンプレート:要曖昧さ回避値確率変数の確率分布とは、その確率変数の引き起こす像測度のことである。この測度は d次元ユークリッド空間上の確率測度であり、ユークリッド空間の部分集合に対して、確率変数の値がその集合に入る確率を与える関数となる。

単に確率分布というときは、d次元ユークリッド空間などのよく使われる可測空間上で定義された確率測度のことをいう。ただの確率測度と違って空間に散らばっている様子がグラフなどの目に見える形で表現できるので「分布」と呼ばれる。

確率論で、確率変数の分布を考えるのは、その変数だけを確率論的な議論の対象にしたい場合である。例えば、確率変数がある値を取る確率や、期待値、分散といった量は変数の分布が分かれば計算できる量である。逆に分布を考えることによって隠れた変数ωと確率変数との対応関係は失われてしまい、他の確率変数との関連性も不明になる。例えば、確率変数XとYの分布がそれぞれP_XとP_Yのように与えられたとしても、ふたつの変数の関連性は分からないので、X+Y がある値を取る確率や、積 X Y の期待値、X+Y の分散といった量は計算できない。このような量を計算したいときは、XとYの結合分布が必要となる。

よく使われる確率分布にはそれぞれ名前がついており性質がよく研究されている。このような分布をもつ確率変数に対して研究の結果を利用することができる。例えば、確率変数の分布が平均 0 分散 1 の正規分布だった場合、その変数が 2 以上の値を取る確率は数表から 2.28% である。

定義

確率分布

1次元確率分布とは (R, B(R)) 上で定義された確率測度のことである。
同様に d 次元確率分布とは (R^d, B(R^d)) 上で定義された確率測度のことである。

確率変数の確率分布

実数値確率変数 X の分布 P_X は像測度であるからテンプレート:Indent で定義される確率測度のことである。

同様に R^d 値確率変数 X の分布 P_X はテンプレート:Indent で定義される確率測度のことである。

確率変数 X の分布がある確率分布 μ に一致するとき、X は μ に従う確率変数であるという。例えば、「X は平均 0 分散 1 の正規分布に従う」のように使い、これを記号でテンプレート:Indent のように書く。

分布関数

実数値確率変数 X の分布関数（ぶんぷかんすう, distribution function）あるいは、一次元確率分布 P_X の分布関数とはテンプレート:Indent で与えられる関数 F_X のことである。累積分布関数 (るいせきぶんぷかんすう, cumulative distribution function) ともいう。

定義から分布関数は右連続であるが、左連続かどうかはわからない。これが連続であるときに確率分布は連続であるという。分布関数が高々可算個の値しかとらない場合は確率分布は離散であるという。

確率密度関数

確率分布 P_X が絶対連続であるというのは、任意の(ルベーグ測度に関しての)零集合 A にたいして、テンプレート:Indent が成り立つことを言う。これは測度の絶対連続性と同じである。確率分布 P_X が絶対連続のとき、測度論のラドン-ニコディムの定理によりラドン-ニコディム微分 f_X が存在する。この f_X のことを確率密度関数（frequency functionまたは probability density function(PDF)）と呼ぶ。 P_X は確率密度関数を用いてテンプレート:Indent と書くことができる。とくに A が区間の場合はテンプレート:Indent となる。区間の端点はいれてもいれなくても確率は同じである。

確率質量関数

確率分布 P_X が離散のときに確率密度関数に対応する関数として確率質量関数（かくりつしつりょうかんすう, probability mass function）(単に確率関数（かくりつかんすう、probability functionまたはprobability mass function、random function、stochastic function）ともいう)を使うことができる。確率変数 X のとる値の集合が S = {x₁, x₂, ...} だとすると確率質量関数はテンプレート:Indent で定まる関数 f_X のことである。

同時分布と周辺分布

複数の確率変数の挙動を多次元の確率分布で表したものを同時分布（どうじぶんぷ, simultaneous distribution）という。同時分布から各変数の分布だけを取り出したものを周辺分布（しゅうへんぶんぷ, marginal distribution）と呼ぶ。これらについては同時分布の項目に詳しい。

代表的な確率分布

代表的な確率分布は離散型または絶対連続型のもののみを挙げる。他には離散でも連続でもないもの、連続であるが絶対連続ではないものなどが考えられるが通常現れる分布ではない。

離散型

テンプレート:Main サイコロを投げた時に出る目の数字など、確率変数が離散的な値をとる場合の確率分布は離散型確率分布である。

離散型の分布は母数と台 S と確率質量関数 f で特徴付けられる。台というのは確率変数のとる値の集合のことである。

離散一様分布
二項分布
- 母数：成功確率 p と試行回数 n
- 台：{0, 1, ..., n}
- 確率質量関数：f(k) = _nC_k p^k(1 - p)^1-k
- これは成功確率 p の試行を独立に n 回行ったときの成功回数の分布である。
ポアソン分布
負の二項分布
ベルヌーイ分布
超幾何分布
多項分布
ゼータ分布、ジップ分布

連続型

テンプレート:Main ある地点での通行人の体重など、確率変数が連続的な場合の確率分布は連続型確率分布である。

絶対連続な分布は母数と台と確率密度関数 f で特徴付けられる

連続一様分布
正規分布
- 母数：平均 μ と分散 σ²
- 確率密度関数： <math>f(x)={1 \over \sqrt {2\pi \sigma^2}}\cdot\exp\!\left(-{(x-\mu)^2\over 2\sigma^2}\right)</math>
指数分布
t分布
カイ2乗分布
ガンマ分布
ベータ分布
F分布
コーシー分布
アーラン分布
三角分布
ラプラス分布
レイリー分布
ロジスティック分布
パレート分布
ワイブル分布

確率分布の利用法

確率変数の確率分布が与えられると、その変数に関する確率・期待値・分散などが以下のように計算できる。

X は連続値をとる確率変数で密度関数は f_X であるとする。 Y は離散値をとる確率変数で台は S = {y₁, y₂, ...} で質量関数は f_Y であるとする。

確率の計算

X が a 以上 b 以下の値を取る確率
- <math>P(a \leq X \leq b) = \int_a^b f_X(x) dx</math>
Y の値が集合 <math>T \subset S</math> に入る確率
- <math>P(Y \in T) = \sum_{y_k \in T} f_Y(y_k)</math>

期待値の計算

関数 g が与えられたときに g(X) と g(Y) の期待値はテンプレート:Indent とくにテンプレート:Indent

分散の計算

X と Y の分散はテンプレート:Indent

変数変換

確率変数の変数変換による新しい変数の密度関数は、元の変数の密度関数で書くことができる。この公式は重積分における変数変換とほぼ同様である。

確率密度関数の変数変換公式

R^d から R^d への関数 T により、R^d 値確率変数 X と Y がテンプレート:Indent と書けているとすると、Y の密度関数は X の密度関数を用いてテンプレート:Indent となる。ただし J はヤコビアンとする。

例えばボックス-ミューラー変換は (0, 1]² 上の一様分布に従う確率変数 X = (X₁, X₂) をテンプレート:Indent によって変換する。X の密度関数はテンプレート:Indent であり、上の公式を当てはめると Y の密度関数はテンプレート:Indent となり、Y が二次元の標準正規分布に従うことが分かる。このように単純な分布を持つ変数を変換して、複雑な分布を作る操作は計算機による乱数の生成で重要となる。

確率変数の和の確率分布

2つの確率変数 X と Y の和 X + Y の確率分布や差 X - Y の確率分布は変数変換公式により計算できる。特に X と Y が独立で、確率密度関数がそれぞれ f_X と f_Y だったとすると、和と差の確率密度関数はテンプレート:Indent となる。

とくに和の確率密度関数は二つの分布の確率密度関数の畳み込みである。また、特性関数は確率密度関数のフーリエ変換であり、畳み込みのフーリエ変換は周波数領域における積であることから、和の特性関数は二つの分布の特性関数の積となる。

なお、確率変数の和の確率分布が元の分布族に従う場合、その分布は再生性があるという。

確率分布

目次

概要

定義

確率分布

確率変数の確率分布

分布関数

確率密度関数

確率質量関数

同時分布と周辺分布

代表的な確率分布

離散型

連続型

確率分布の利用法

確率の計算

期待値の計算

分散の計算

変数変換

確率密度関数の変数変換公式

確率変数の和の確率分布

関連項目

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ヘルプ

ツール