[婆茶留高校数学科☆HP] Top pageに戻る このページを閉じる |
【知恵袋から】統計・データの分析
Copyright (C) virtual_high_school, 2016-19
【問題1】 相関係数はなぜ、(xとyの共分散)÷{(xの標準偏差)×(yの標準偏差)}、で求めるのか。---
【問題2】 ある試験の結果が平均52点、標準偏差18点のとき、41点以下は全体のおよそ何パーセントですか?---
【問題3】 実確率変数の族$\{ X_{i} \}_{i=1}^{n}$ が独立であるとし、 $E(X^2_{i}) < \infty ( i = 1,\cdots,n )$であるとする。このとき
【問題4】 下の箱ひげ図は50人に実施した二つのテストAとBの結果である。正しいかどうか理由をつけて答えよ。
「YAHOO! 知恵袋」で筆者が回答したものの中から抜粋しました。
【問題1】 相関係数はなぜ、(xとyの共分散)÷{(xの標準偏差)×(yの標準偏差)}、で求めるのか。---
【解】 極端な話、データが3個とします。(身長,体重)が$(a,x), (b,y), (c,z)$ だったとします。
身長の標準偏差は、平均を$m$ とすれば
$\sqrt{\frac{(a-m)^2 +(b-m)^2 +(c-m)^2}{3}}$
体重の標準偏差は、平均を$m'$ とすれば
$\sqrt{\frac{(x-m')^2 +(y-m')^2 +(z-m')^2}{3}}$
共分散は
$\frac{(a-m)(x-m') +(b-m)(y-m') +(c-m)(z-m')}{3}$
相関係数 = (xとyの共分散)÷{(xの標準偏差)×(yの標準偏差)}、ですが説明の都合上 $m = m'= 0$ とします。(身長、体重の平均が0になり得るのかという疑問があるかも知れない。相対身長=標準より高いか低いかで正負の値の取る変数を考えればよい。)
身長の標準偏差は
$\sqrt{\frac{a^2 +b^2 +c^2}{3}}$
体重の標準偏差は
$\sqrt{\frac{x^2 +y^2 +z^2}{3}}$
共分散は
$\frac{ax +by +cz}{3}$
となり、相関係数は
$r = \frac {ax +by +cz}{\sqrt{a^2 +b^2 +c^2}\sqrt{x^2 +y^2 +z^2}}$
です。相関係数をこのように定義すれば、コーシー・シュバルツの不等式:
$(ax +by +cz)^2 ≦(a^2 +b^2 +c^2)(x^2 +y^2 +z^2)$
により値が$-1~1$の範囲に落ちてくれるので、気持ちがよいでしょう。
● いま、体重が身長に正確に正比例するとして、比例定数を$k>0$としよう。$x=ka,y=kb,z=kc$となるので
$r = \frac {ka^2 +kb^2 +kc^2}{\sqrt{a^2 +b^2 +c^2}\cdot |k|\sqrt{a^2
+b^2 +c^2}}=\frac{k}{|k|}=1$
これは最強の正の相関である。一方、比例定数を$k<0$で正比例するとしたら
$r =\frac{k}{|k|}=-1$
これが最強の負の相関である。
● 見方を変えて、3人の身長による3次元ベクトル$\vec{a}=(a,b,c)$と、体重ベクトル$\vec{x}=(x,y,z)$を考えよう。正比例していると、
$\vec{x}=k \vec{a}$
である。先に述べたように$k>0$なら正の相関だが、これは2つのベクトルの向きが一致する(なす角が0°)。$k<0$なら負の相関で、ベクトルの向きが逆向き(なす角が180°)である。
なす角を$\theta$とすれば
$\cos \theta= r$
である。つまり、相関係数は2つのベクトルのなす角である。2つの変量間にまったく相関関係がなければ、なす角が90度で、$r=$0 となる訳だ。
【問題2】 ある試験の結果が平均52点、標準偏差18点のとき、41点以下は全体のおよそ何パーセントですか?---
【解】$Z=(X-m)/\sigma$は標準正規分布$N(0,1)$に従います。
今の場合、
$z=(41-52)/18 = -0.61$
正規分布表から、0~1.64 の面積は 0.2291 なので
0.5 - 0.2291 = 0.2709
【答】 27.09%です。
【問題3】 実確率変数の族$\{ X_{i} \}_{i=1}^{n}$ が独立であるとし、 $E(X^2_{i}) < \infty ( i =
1,\cdots,n )$であるとする。このとき
$V(X_{1}+\cdots + X_{n}) = V(X_{1}) + \cdots + V(X_{n})$
を示せ。---
【解】 表記が面倒なので、$n=2$とします。
$V(X_{1}+X_{2})$
$=E( (X_{1}+X_{2})^2 ) - (E(X_{1})+E(X_{2}))^2$
$=E(X_{1}^2)+ 2 E(X_{1}X_{2}) + E(X_{2}^2)- \{E(X_{1})^2 + 2E(X_{1})E(X_{2})
+ E(X_{2})^2\}$
$=V(X_{1}) + V(X_{2}) + 2\{ E(X_{1}X_{2}) - E(X_{1})E(X_{2}) \}$
だから、証明すべきは、独立のとき
$E(X_{1}X_{2}) = E(X_{1})E(X_{2})$
となることです。
左辺$= \sum x_{1} x_{2} P(X_{1}=x_{1} \wedge X_{2}=x_{2})$
右辺$= \sum x_{1} P(X_{1}=x_{1})\times \sum x_{2} P(X_{2}=x_{2})$
$= \sum x_{1} P(X_{1}=x_{1})\times x_{2} P(X_{2}=x_{2})$
$= \sum x_{1} x_{2} P(X_{1}=x_{1})\times P(X_{2}=x_{2})$
独立だから
$P(X_{1}=x_{1} \wedge X_{2}=x_{2})= P(X_{1}=x_{1})\times P(X_{2}=x_{2})$
なので、左辺=右辺■
【問題4】 下の箱ひげ図は50人に実施した二つのテストAとBの結果である。正しいかどうか理由をつけて答えよ。
(1)70点以上はBの方が少ない。
(2)75点以上はAの方が多い。
(3)20点以上、40点以下はBの方が多いといえるか?---
【解】 箱ヒゲのキザミは、左から最小値(min)、第1四分位数($Q_{1}$)、中央値($Q_{2}$)、第3四分位数($Q_{3}$)、最大値(max)であり、キザミとキザミの間の人数は全体の25%である。
(1)70点以上の人数は、Aは25%より多く、Bはちょうど25%だ。だから「正しい。」
(2)75点以上は、Aはちょうど25%、Bは25%未満。だから「正しい。」
(3)20点以上40点以下は、Aは25%未満、Bはちょうど25%。だから「正しい。」
【問題5】 正規分布の確率密度関数
$f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
を$-\infty$から$\infty$まで積分すると$1$になることを証明せよ。---
【証明】 $\frac{x-\mu}{\sqrt{2}\sigma}=t$と置換すると、
$\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\frac{1}{\sqrt{2\pi}\sigma}
\int_{-\infty}^{\infty}e^{-t^2} \cdot \sqrt{2}\sigma dt$
$=\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty}e^{-t^2} dt$
だから、
$\int_{-\infty}^{\infty}e^{-t^2} dt=\sqrt{\pi}$ ……(*)
の証明に帰着される。そこで
$I=\int_{-\infty}^{\infty}e^{-t^2} dt$
とおく。
$I^2=\int_{-\infty}^{\infty}e^{-x^2} dx \times \int_{-\infty}^{\infty}e^{-y^2}
dy$
$=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{-(x^2+y^2)} dx dy$
ここで$(x,y)=(r \cos \theta, r \sin \theta)$と置換する。ヤコビアンは
$\left| \begin{array}{cc} \frac{\partial x }{\partial r} & \frac{\partial
x }{\partial \theta} \\ \frac{\partial y }{\partial r} & \frac{\partial
y }{\partial \theta} \end{array} \right| =\left| \begin{array}{cc} \cos
\theta & -r \sin \theta \\ \sin \theta & r \cos \theta \end{array}
\right| =r$
となるので、それの絶対値も$r$である。よって
$I^2=\int_{0}^{\infty}\int_{0}^{2\pi} e^{-r^2} r dr d\theta$
$=\int_{0}^{\infty} e^{-r^2} r dr \times \int_{0}^{2\pi} d\theta$
$=[ -\frac{1}{2}e^{-r^2}] _{0}^{\infty} \times [\theta]_{0}^{2\pi}$
$=\pi$
したがって
$I=\sqrt{\pi}$■
【問題6】 正規分布の確率密度関数
$f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
のグラフをかけ。---
【解】 そのグラフは、$g(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{x^2}{2\sigma^2}}$のグラフを$x$軸方向に$\mu$だけ平行移動したものであるから、$g(x)$のグラフが描ければよい。
そこで、$g(x)$のグラフについて考察する。まず偶関数であるので$y$軸に関して対称であり、$g(x)>0$であるので、第1,2象限にグラフが現れる。また、
$\displaystyle \lim_{x \rightarrow \pm \infty} g(x) =0$
であるから、$x$軸が漸近線である。
次に、極値や変曲点を調べよう。微分すると
$g'(x) =- \frac{1}{\sqrt{2\pi}\sigma^3} x e^{-\frac{x^2}{2\sigma^2}}$
$g'(x) =- \frac{1}{\sqrt{2\pi}\sigma^3} (1- \frac{x^2}{\sigma^2}) e^{-\frac{x^2}{2\sigma^2}}=
\frac{1}{\sqrt{2\pi}\sigma^5} (x^2-\sigma^2) e^{-\frac{x^2}{2\sigma^2}}$
だから
極大値$g(0)=\frac{1}{\sqrt{2\pi}\sigma}$
変曲点$(\pm \sigma, \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}})$
もし$\sigma=1$なら$g(0)=0.399$ と$(\pm 1,0.242)$である。
【問題7】 確率密度関数が
$f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
である分布(正規分布)の平均と分散を求めよ。---
【証明】 平均は
$E(X)=\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} x e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx$
だが、ここで$\frac{x-\mu}{\sqrt{2}\sigma}=t$と置換して、
$E(X)=\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} (\mu +\sqrt{2}
\sigma t)e^{-t^2} \cdot \sqrt{2}\sigma dt$
$=\frac{\mu}{\sqrt{\pi}} \int_{-\infty}^{\infty} e^{-t^2} dt + \frac{\sqrt{2}\sigma}{\sqrt{\pi}}
\int_{-\infty}^{\infty} t e^{-t^2} dt$
第1項の積分は問題5の中で証明した(*)式を使って$(\mu/\sqrt{\pi})\times \sqrt{\pi}=\mu$であり、第2項は奇関数の積分だから$0$になる。よって
$E(X)=\mu$
分散は
$V(X)=\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} (x-\mu)^2
e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx$
さきと同様に置換積分すると
$V(X)=\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} 2\sigma^2
t^2 e^{-t^2} \cdot \sqrt{2}\sigma dt$
$=\frac{2\sigma^2}{\sqrt{\pi}} \int_{-\infty}^{\infty} t^2 e^{-t^2}
dt$
この積分は部分積分であって
$\int_{-\infty}^{\infty} t^2 e^{-t^2} dt=[-\frac{1}{2}t e^{-t^2}]_{-\infty}^{\infty}
+\frac{1}{2} \int_{-\infty}^{\infty} e^{-t^2} dt$
となり、右辺の第1項はロピタルの定理で$0$で、第2項は先と同じだから
$=0+\frac{1}{2} \sqrt{\pi}$
よって、
$V(X)=\frac{2\sigma^2}{\sqrt{\pi}} \times \frac{1}{2} \sqrt{\pi}=\sigma^2$■
【蛇足】 ここに出てきた分布は、平均$\mu$, 分散$\sigma^2$の正規分布である。
【問題8】 二項分布の確率密度関数
$P(X=k) = _{n}C_{k} p^k (1-p)^{n-k}$について、$k=0$から$n$までの和を取ると$1になることを確認し、平均と分散を求めよ。---
【証明】 (1) まず総和を求めると
$\displaystyle \sum_{k=0}^{n} {}_{n}C_{k} p^{k} (1-p)^{n-k} =(p+1-p)^{n}=1$
と、二項定理から$1$であることが分かる。
(2) 平均は
$E(X)=\displaystyle \sum_{k=0}^{n} k {}_{n}C_{k} p^{k} (1-p)^{n-k}$
だが、この和を求めるために微分を使う。まず
$f(x) =\displaystyle \sum_{k=0}^{n} {}_{n}C_{k} x^{k}(1-p)^{n-k}=(x+1-p)^{n}$
とおく。これを微分すると
$f'(x) =\displaystyle \sum_{k=0}^{n} k {}_{n}C_{k} x^{k-1}(1-p)^{n-k}=n (x+1-p)^{n-1}$
よって
$E(X)=p\displaystyle \sum_{k=0}^{n} k {}_{n}C_{k} p^{k-1}(1-p)^{n-k}=p f'(p)=pn (p+1-p)^{n-1}=np$
(サイコロを$n=60$回振ったときの1の目が出る回数は平均して$np=60 \times (1/6)=10$だという当然の結論になる。)
(3) 分散は
$V(X)=\displaystyle \sum_{k=0}^{n} (k-np)^2 {}_{n}C_{k} p^{k} (1-p)^{n-k}$
$=\displaystyle \sum_{k=0}^{n} \{ k(k-1) -(2np-1)k+n^2p^2 \}{}_{n}C_{k} p^{k} (1-p)^{n-k}$
3つに分けて総和をとる。第1に、2階微分により
$\displaystyle \sum_{k=0}^{n} k(k-1) {}_{n}C_{k} p^{k} (1-p)^{n-k}=p^2 f''(p)=p^2
n(n-1)$
第2に
$-(2np-1) \displaystyle \sum_{k=0}^{n} k {}_{n}C_{k} p^{k} (1-p)^{n-k}=-(2np-1)E(X)=-(2np-1)np$
第3は
$ n^2p^2 \displaystyle \sum_{k=0}^{n} {}_{n}C_{k} p^{k} (1-p)^{n-k}=n^2p^2 \times
1$
上記3つを合わせれば
$V(X)=p^2n(n-1)-(2np-1)np+n^2p^2=np(1-p)$■
【別証明】 第$i$回目の試行で事象Aが起これば$X_{i}=1$回とカウントし、起きなければ$X_{i}=0$回とする。そうすれば
$P(X_{i}=1)=p,P(X_{i}=0)=1-p$
であり、その平均は
$E(X_{i})=1 \times p +0 \times (1-p) =p$
で、分散は
$V(X_{i})=(1-p)^2 \times p +(0-p)^2 \times (1-p) =p(1-p)$
である。また
$X=X_{1}+X_{2}+X_{3}+\cdots +X_{n}$
であるから、$X$の平均は
$E(X)=E(X_{1})+\cdots +E(X_{n})=np$
で、$X_{i}(i=1,\cdots, n)$が独立だから
$V(X)=V(X_{1})+\cdots +V(X_{n})=np(1-p)$■
【問題9】 2つの変量 $X,Y$ の $n$個の組 $(X,Y)$ のデータに対して、変量 $X$ の各データの値を $\alpha$倍し、続いて変量
$Y$ の各データに $\beta$ を加えて改竄した。改竄後の相関係数をもとのデータの相関係数 $r$ を用いて示せ。ただし、$\alpha>0,\beta>0$
とする。---
【解】 雨量と気温の相関係数を考えてみよう。改竄(変換)するとは、例えば雨量を $mm$(ミリメートル) でなく $cm$(センチメートル)で測ることにし($0.1$倍)、気温を摂氏(℃)から絶対温度で測ることに変える(273を加える)ことに相当する。このように両変量を変換しても相関係数は変わらないはずだ。だから、改竄後も相関係数は
$r$ である。
でもこれでは解答と言えないだろう。そこで次のように示そう。
まず、平均、分散、標準偏差について
$E(\alpha X+\beta)=\alpha E(X)+\beta,$
$V(\alpha X+\beta)=\alpha^2 V(X),$
$S(\alpha X+\beta)=\alpha S(X)$
という公式が成り立つ。また、共分散と相関係数の定義式は
$C(X,Y)=E( (X-E(X))(Y-E(Y)) ),$
$r(X,Y)=\frac{C(X,Y)}{S(X) S(Y)}$
である。これらを組み合わせればよい。
$X'=\alpha X,Y'=Y+\beta$
とおけば
$C(X',Y')=E((X'-E(X'))(Y'-E(Y')))$
$=E((\alpha X-\alpha E(X))(Y+\beta-E(Y)-\beta))$
$=E(\alpha ( X- E(X))(Y-E(Y)))$
$=\alpha C(X,Y)$
よって、変換後の相関係数は
$r(X',Y')=\frac{C(X',Y')}{S(X')S(Y')}$
$=\frac{\alpha C(X,Y)}{\alpha S(X) \cdot S(Y)}$
$=\frac{ C(X,Y)}{ S(X) S(Y)}$
$=r(X,Y) =r$ ……(答)
結局、変換前の相関係数と変わらない。
【問題10】 大きさ $n$ のデータ $X$ がある。$X$ の各データの値に $\alpha$ を加えてできたデータを $Y$ とする。このとき、データ
$X$ とデータ $Y$ の分散(標準偏差)が等しいことを示せ。また、$X$ の各データの値を $\beta$ 倍してできたデータを $Z$
とする。このとき、データ $Z$ の分散(標準偏差)はデータ $X$ の分散(標準偏差)の $\beta^2$ 倍($|\beta|$ 倍)となることを示せ。---
【証明】 $Y=aX+b$ のとき、公式
$V(Y) = a^2V(X)$
を証明することに帰着します。これが分かれば
$S(Y)=\sqrt{V(X)}=|a|\sqrt{V(X)}=|a|S(X)$
が出てくるからです。分散の公式の前に、平均の公式:
$E(Y) = aE(X) +b$
を示します。実際
$E(Y) = E(aX+b)$
$=\frac{1}{n}\sum (ax_{i}+b)$
$=\frac{1}{n}( \sum ax_{i}+\sum b)$
$=\frac{1}{n}( a \sum x_{i}+n b)$
$=a \times \frac{1}{n} \sum x_{i} + b$
$=aE(X)+b$
10点満点のテストの点数を5倍して、50点下駄を履かせれば、平均点も5倍して50点を加えた点数になるって訳だ。
次は、分散の公式の証明だ。
$V(Y) = E( (Y-E(Y))^2 )$
$=E( (aX+b-aE(X) -b)^2 )$
$=E(a^2 (X-E(X) )^2 )$
$=a^2 E( (X-E(X) )^2 )$
$=a^2 V(X )$ ■
【問題11】 A, B, C の3つのグループの(人数, 平均値, 標準偏差) がそれぞれ、A:( 62, 63.0, 8.1), B:(70, 68.2,
9.1), C:(68, 63.5, 8.6) であった。3グループ全体の(人数, 平均値, 標準偏差) を求めよ。---
【解】(1) 全体の人数は
$62+70+68=200$(人) ……(答)
(2) 平均値は
$\mu=\frac{1}{n} \sum x_{i}$
だから、逆算すれば
$\sum x_{i}=n \times \mu$
3グループ全体だと
$\sum x_{i}=\displaystyle \sum_{A} x_{i} + \displaystyle \sum_{B} x_{i}+ \displaystyle \sum_{C} x_{i}$
$=62 \times 63.0 + 70 \times 68.2+68 \times 63.5=12998$
なので、これを全体の人数で割って
$\mu=\frac{1}{200} \times 12998=64.99$
全体の平均値は $65.0$ ……(答)
(3) 分散は、2乗の平均から平均の2乗を引いたものになるから
$\sigma^2=\frac{1}{n}\sum x_{i}^2 - \mu^2$
だから、逆算すれば
$\sum x_{i}^2=n (\sigma^2+ \mu^2)$
3グループ全体だと
$\sum x_{i}^2=\displaystyle \sum_{A} x_{i}^2 + \displaystyle \sum_{B} x_{i}^2+ \displaystyle \sum_{C} x_{i}^2$
$=62(8.1^2+63.0^2)+70(9.1^2+68.2^2)+68(8.6^2+63.5^2)=860751.6$
なので、これより
$\sigma^2=\frac{1}{200}\times 860751.6 - 65.0^2=78.758$
$\sigma=\sqrt{78.758}=8.87457\cdots$
全体の標準偏差は $8.9$ ……(答)
[婆茶留高校数学科☆HP] Top pageに戻る このページを閉じる |