確率変数や確率分布は統計学の基礎中の基礎の概念です。あらゆる文献を読む上でも必須の前提知識になるため、ぜひおさえておきましょう。
データの分布
データの分布とは、どんな値がどれほど存在するかを表した言葉です。データの分布を調べるのによく使われる道具として、グラフ (ヒストグラム) があります。
例えばサイコロを何度か投げて出た目ごとに集計すると、以下のヒストグラムのようになります。最も多く出た目は 1 ですが、大きな偏りは無いことなどが読み取れます。
![サイコロの出目のヒストグラム](/images/dice-dist.png)
次に 総務省の人口推計 を参考に、都道府県別の人口分布をヒストグラムで表現するとこのようになります。
![都道府県別の人口の分布](/images/population-dist.png)
このデータは、以下のような日本人全体の名簿を都道府県ごとに集計したものと考えることができます。
名前 | 居住地 | 年齢 |
---|---|---|
A | 東京都 | 30 |
B | 神奈川県 | 28 |
C | 東京都 | 42 |
... | ... | ... |
では名簿を年齢別に集計したらどうなるかというと、これは人口ピラミッドになりますね (人口推計 (2022年10月1日現在) より抜粋)。
![人口ピラミッド](/images/population-pyramid.png)
こんなふうに、数値データをヒストグラムで表してみたり (サイコロの例)、テーブル形式のデータをいくつかの軸で集計してみたり (人口の例)、データ分析の初手で、データの分布を確認するというのはよくやることだと思います。
確率変数とは
続いて確率変数について導入します。確率変数とは、取りうる値が確率的に決まるような変数のことです。
例えば手元に 10 円玉があるとしましょう。これを投げたとき、必ず表が出るわけでもなければ、必ず裏が出るわけでもありません。表と裏のどちらが出るかは確率的に決まります (正確に言えば、確率的に出る面が決まるものだとモデル化して考えることになります)。つまり 10 円玉 (の出る面) は確率変数だとみなすことができます。表や裏は数値ではありませんが、それぞれ 1 と 0 に割り当てることで、変数になるわけですね。
同様にサイコロも確率変数であることが理解できるでしょう。
他にも、工業製品の寸法のズレなんかも確率変数だとみなすことができます。例えば幅 50mm で角材を切り出す機械があったとします。いくら機械とはいえ毎回寸法ぴったりに切り出せるわけではなく、わずかに 50mm を下回ったり上回ったりすることがありえます。このずれが確率的に発生しているものだとモデル化することで、この機械の精度を確率的に議論することができます。さらには精度の変化からメンテナンスタイミングを算出したりなどもできるでしょう。
確率分布とは
確率変数の取りうる値と、その値を取る確率をまとめたものを確率分布といいます。離散分布と連続分布の 2 つに大別できますが、詳しくは以下で見ていきましょう。
離散分布
サイコロの出目と、その出目となる確率を表にすると以下のようになります。これがサイコロの確率分布です。サイコロは離散的な値 (ないしは飛び飛びの値) を取るため、離散分布と呼びます。
出目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
サイコロのデザインによっては、1 の目が大きく削られていて、重心が 6 のほうに寄ってることもあるようですね。そのようなサイコロの場合、確率分布は以下のようになるでしょう。
出目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 1/6強 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6弱 |
イカサマ用のサイコロならこんな感じでしょうか。
出目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 0 | 0 | 0 | 1/3 | 1/3 | 1/3 |
単にサイコロは確率変数だと言ったとしても、その背後にある確率分布は様々なものが考えられるということです。対象の確率変数がどんな形の確率分布を持っているかを調べることが統計分析のひとつの目的なのです。
連続分布
工業製品の寸法のズレのように、確率変数が連続的な値を取るとき、その確率分布を連続分布と呼びます。連続的なので表にすることができません。代わりにグラフで表すとこんな感じです。
![拡材の寸法の確率分布](/images/timber-error.png)
これは例として作ったグラフですが、指定の寸法である 50mm を一番取りうる可能性の高い値にしています。また、マイナスのズレとプラスのズレは同じ可能性で起こり得るだろうということで、左右対称にしました。
主要な確率分布
主要な確率分布はその形ごとに名前がついています。
離散分布
一様分布
すべての値が等確率で取りうるような分布を一様分布といいます。はじめのサイコロの例なんかがそうですね。
出目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
ベルヌーイ分布
ベルヌーイ分布は以下のような分布です。コインの表と裏のように、2 つの値を取るような確率変数は必ずこの形の確率分布を持ちます。
値 | 0 | 1 |
---|---|---|
確率 |
二項分布
ベルヌーイ分布をいくつか寄せ集めたのが二項分布です。例えば、10 回コインを投げたうちの表の出た回数がそれです。10 個のベルヌーイ分布が合わさっているわけですが、表の出た回数は単一の数値であり、これが二項分布の性質を持ちます。
コインの表の出る確率が であるときに、表の回数ごとの確率をプロットすると以下のようになります。3 回だけ表となる確率が最も大きいようですね。10 回とも表になるのはめったいにないようです。
![ベルヌーイ分布](/images/binomial-dist.png)
その他
他にも様々な分布が存在します。
確率分布 | 例 |
---|---|
負の二項分布 | 表が 5 回出るまでに投げたコインの回数など。 |
ポアソン分布 | 1 時間に電話が鳴る回数など。 |
連続分布
一様分布
連続分布にも一様分布が存在します。ある区間の値を一定確率で取りうるような確率分布です。取りうる値の区間が 1 から 3 である場合をグラフにすると以下の通りです。
![連続一様分布](/images/uniform-dist.png)
正規分布
なんだか難しそうですが、英語では Normal distribution です。ノーマル、つまり普通の分布ということですね。普通分布と呼んでもいいのですが、なんだか気が抜けてしまうので正規分布と呼んであげましょう。ちなみにガウス分布という別名を持っていたりします。
正規分布は以下のような形をしていて、釣鐘型と形容されます。実は木材の寸法の確率分布のグラフも正規分布を使っていました。
![正規分布](/images/normal-dist.png)
なぜ Normal と呼ばれているのかというと、この分布がよく登場するからです。それこそ上で挙げたような工作機械の誤差や、男女別の身長なども、プロットしてみると似たような形が現れます。また、二項分布もコインの投げる回数を十分大きくしていくと、正規分布で近似できることが知られています。
他に数学的にも重要な性質を持っているため、統計学での登場頻度がずば抜けて高いのが正規分布です。
その他
連続分布も多種多様です。この表に挙げたもの以外にもたくさんあります。
確率分布 | 説明 |
---|---|
t 分布 | t 検定に使われる分布。正規分布に似た形をしている。 |
ベータ分布 | 0 から 1 までの値を取りうる。比率を考える際に使われる。 |
ガンマ分布 | 0 より大きい値を取る場合に使われる。 |
指数分布 | 電話が鳴るまでの時間など。 |
「従う」の意味
数学には時折特殊な言葉遣いが見られますが、確率分布にまつわる用語にもそのようなものが存在します。それが「従う」という言い回しです。こんなふうに使います。
- 確率変数 は確率分布 に従う
- コインはベルヌーイ分布に従う
- 角材の寸法は正規分布に従う
この記事の前半では、「確率変数がどんな確率分布を持っているか」という表現をしましたが、同じ意味ですね。他の文献をあたる際に「従う」に遭遇したら、このような意味だと思い出してください。
データの分布再び
サイコロは一様分布に従う確率変数であると仮定されることの多い題材です。一様分布ですから、その確率分布をグラフにすると横並びのものが得られます。
![サイコロの確率分布](/images/dice-uniform-dist.png)
このサイコロをコンピューター上で 10000 回投げて、その出目を集計したのが以下です。確率分布と似たような形になりましたね。それもそのはずで、どの目も同じ確率で出るというのが一様分布ですから、各出目の回数もほとんど均一です。
![サイコロの出目のヒストグラム](/images/dice-sample-dist.png)
つまり、
ある確率分布に従う確率変数から生成されたデータの分布は、もとの確率分布と同じような形になる
ということです。当たり前じゃない?と感じたならば、その感覚を大切にしてください。その一方で、この事実は大事なことでもあるので、意識して頭に入れておきましょう。
反対に、データから確率分布を想起するのが統計学のメインテーマです。
- データの背後には何かしらの確率分布があって、それに従ってデータが生成されている。
- 統計学の目的の一つは、その背後に潜む確率分布を特定することである。
まとめ
さて、分布や確率分布がどういうものかイメージがついたでしょうか。
上でも述べたように、統計学のひとつの目的は、分析対象のデータがどんな確率分布に従っているかを調べることです。それほど確率分布は基本的かつ重要な概念だということです。
確率分布の種類ごとに分布の形や数学的な性質が異なります。しかし多様な確率分布を一度に覚えるのは難しいので、登場する度に少しずつ仲良くなるのが良いでしょう。