[婆茶留高校数学科☆HP] Top pageに戻る このページを閉じる 探したい言葉はここへ→
画鋲の確率のウソ
Copyright (C) virtual_high_school, 1996-2017
確率は現実界を反映した量であるから、理論と現実との橋渡しをするものが必要となる。それが大数の法則または中心極限定理である。
確認の意味で、ここにこれらの定理を書いておこう。
【定理1】(大数の弱法則)
独立な確率変数$X_{1},X_{2},\cdots,X_{n}$が同一の確率分布(平均$\mu$)に従うとき、
$ \overline{X} = \frac{X_{1}+X_{2}+\cdots+X_{n}}{n} $
について
$ \displaystyle \lim_{n \rightarrow \infty}
P(\{ \mid \overline{X} - \mu \mid \leq \varepsilon \}) = 1 $
である。(確率収束)---
【定理2】(大数の強法則)
独立な確率変数$X_{1},X_{2},\cdots,X_{n}$が同一の確率分布(平均$\mu$)に従うとき、
$ \displaystyle P(\{\lim_{n \rightarrow \infty} \overline{X} = \mu \}) = 1 $
である。(概収束)---
【定理3】(中心極限定理)
独立な確率変数$X_{1},X_{2},\cdots,X_{n}$が同一の確率分布(平均$\mu$, 分散$\sigma^{2}$)に従うとき、$n$が十分大きければ
$ \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} $
は正規分布$N(0,1)$に従う。(法則収束)---
このうち、高校で多用されるのは中心極限定理であろう。実験値は$n$を十分大きくすることによって、理論値と結びつく。だから、多数回繰り返し実験できる試行、または多数個同じようなものが存在して多数回観察ができるものでないと、統計的(実験的)確率は考えられない。
画鋲を投げて、針が上を向く確率をどうやって求めたらよいか。ある教室で次のような授業が行われた。
【例】(班別実験)
クラスを6班に分け、各班ごとに実験をさせる。実際に画鋲を投げさせるのである。班の中では、班員が代わりばんこに実験をしてもよい。各班とも1000回投げたとしよう。そして、上向きになった回数を報告させる。
6班の合計が2348回だとすると、相対度数は$2348/6000 \mbox{≒} 0.39$となるので、求める確率は0.39である。---
(分析) この方法に対する疑問点をいくつか述べる。
このように問い詰めていくと画鋲の確率がなぜ0.39と言えるのか、その根拠は薄弱と言わざるを得ない。
ひょっとして、相対度数=確率と、勘違いしているのではないかとも思える。
例えば全校生徒1000人のうち、女生徒が450人いたとして、相対度数は0.45だが、それは確率ではない。ただの割合だ。
画鋲投げの実験から確率を求めるには、本来、統計の推定理論を使う。
統計的確率は、数学的確率とともに、確率の基本性質(コルモゴロフの公理)を満たすものとして確率論の冒頭より登場する。だけども、その値は確率や統計の理論を学習しないと推定できない。
そこらへんの道筋を追ってみよう。
画鋲を投げて針が上を向く確率をいくらとするか、コルモゴロフの公理からだけでは出てこない。値をいくらと仮定しようが、$0 \leq p \leq
1$であれば矛盾は起きないからだ。
そこでその値を$p$として、画鋲を投げる試行を$n$回繰り返す。この$n$個の試行は独立だから、乗法公理が成り立ち、次の定理が出る。
その前に、1個の画鋲を投げるという試行の確率空間に、確率変数$X_{i}$を導入して、針が上を向くことを$X_{i}=1$で、下を向くことを$X_{i}=0$と表すことにしておく。
【定理4】
$n$個の確率変数$X_{1},X_{2},\cdots,X_{n}$が独立で、すべての$i$について$P(\{X_{i} =1 \} )=p$であるとき、
(1) 確率変数$X=X_{1}+X_{2}+\cdots+X_{n} $($n$回中の上を向く回数)が値$r$(回)をとる確率は
$ P(\{X=r\}) = _{n}C_{r} p^{r} (1-p)^{n-r} $
であり、このとき$X$は二項分布$B(n,p)$に従うと言う。$B(n,p)$の期待値は
$E(X)=np$,
分散は
$V(X)=np(1-p)$
である。
(2) 中心極限定理により、$n$が十分大きいとき、確率変数$X_{1},\dots,X_{n} $の平均$ \overline{X} = \frac{X_{1}+X_{2}+\cdots+X_{n}}{n} $に対し、$ \frac{\overline{X}-p}{\sqrt{p(1-p)/n}} $は正規分布$N(0,1)$に従う。言い換えれば、
$ P(\{a \leq \frac{\overline{X}-p}{\sqrt{p(1-p)/n}} \leq b \}) \mbox{≒}\int_{a}^{b} \frac{1}{\sqrt{2 \pi}} e^{- \frac{x^{2}}{2}} dx $
である。---
そこで、6000回画鋲を投げて 2348回上を向いたというデータ(2348/6000=0.39)から、$p$を信頼度95%で区間推定してみよう。$ P(\{\mid \frac{0.39-p}{\sqrt{p(1-p)/n}} \mid \leq 1.96 \}) \mbox{≒}0.95
$より、
$ -1.96 \leq \frac{0.39-p}{\sqrt{p(1-p)/n}} \leq 1.96 $
ここで$p$の値はまだ分かっていないのだが、計算が面倒なので、分母に出てくる$p$を0.39で代用して、
分母=$\sqrt{0.39 \times 0.61 / 6000}=0.0063$
とする。(代用しなくても、2次方程式を解けば区間推定はできる。)
$ 0.39-1.96 \times 0.0063 \leq p \leq 0.39 + 1.96 \times 0.0063 $
から、95%信頼区間は
$ 0.378 \leq p \leq 0.402 $
となる。これが【例】(班別実験)に対する1つの答である。こうして、統計的確率$p$がようやく分かった。
このように見てくると、統計的確率の存在自体はかんたんに仮定できても、その値を求める方法論を確立するまでの道のりは長い。
ところで、前節に述べた区間推定を使ったのはマチガイなのである。
【例】(班別実験)は、6000件のデータを集計したものであった。ここで、確率変数$X_{1},X_{2},\cdots,X_{6000}$は同一の分布に従っていなければならない。すなわち同一の平均を持たないとならない。ところがいろんな生徒がいろんな投げ方をしているので、同一の確率分とは言えないのである。
前提条件が満たされないので、中心極限定理も大数の法則も成り立たないのである。
なぜ同一の分布にならないのか、もう少し詳しく述べよう。
画鋲投げではイカサマが簡単にできる。
教室でこんな遊びがはやることがある。掲示板に止めてある画鋲を天井に向かってダーツのように投げるのである。うまくなると、針が天井に突き刺さるのである。それが百発百中でできるようになる。この生徒に画鋲投げをさせれば、針が上を向く確率を0
にでも 1 にでも、あるいは$0 \leq p \leq 1$なる任意の$p$にでもすることができよう。
ここまでのイカサマでなくても、画鋲の実験は実験方法によっていろいろな結果が出てしまう。
画鋲の針をどっちに向けて投げるのか、床から何$cm$の高さから投げるのか、自由落下させるのか初速をつけて投げるのか、床の材質は何なのか、$\cdots$と、いろいろな初期条件を一定にして投げないと正しい結果が得られない筈だ。
ところが、こうした初期条件は余り考慮されない。画鋲の実験をどのクラスでやってもほぼ同じ結果になる原因は、初期条件の取り方が各班、各人ごとにランダムであるからである可能性が高い。授業時間の節約かも知れないが、班別に実験をやって、それを集計するというやり方は、初期条件のランダム性を見ているだけで、画鋲の出方のランダム性を調べていることにはならない。
いろいろな班がバラバラな結果を出し、それを総計して相対度数を出せば、班ごとの初期条件のランダム性により、もっともらしい確率の実験らしい結果が出るには違いない。(だからこそ、あえて初期条件はいいかげんに設定して、ここでランダム性が紛れ込むように仕組むのかもしれない。)
これは実験というより、詐欺に近い。訳の分からない数をいっぱい合計して、全体数で割れば何かもっともらしい数値になって、それが確率だと言っているのに等しい。
[婆茶留高校数学科☆HP] Top pageに戻る このページを閉じる 探したい言葉はここへ→