【統計学】母平均の区間推定(母分散が既知・未知)
母平均の区間推定(母分散が既知の場合)
母平均の区間推定は、母集団が「正規分布」に従っていることを前提とし、正規分布の標準化の考え方をもとに推定を行います。
正規分布の標準化とは平均を0に、分散(標準偏差)を1にしたものでしたね。
\(X_2 = \frac{X_1-\mu}{\sigma}\)
この数式と標準正規分布を用います。
標本から母平均を区間推定
まずは一番簡単な方法で考えてみましょう。
母集団から、ある標本を一つ抽出します。サンプルとして体重65kg、母分散は既知で\(5^2\)とします。
ここから信頼度95%の母平均の信頼区間を求めます。これを式で考えると
\( -1.96 \leq \frac{65-\mu}{\sqrt{5_2}} \leq 1.96 \)
\(55.2kg \leq \mu \leq 74.8kg\)
となりました。
標本平均の性質を利用した母平均の区間推定
次に、一つの値ではなく標本平均を利用した母平均の区間推定を見ていきます。
標本平均は、n数の標本から平均を取ることでばらつきを抑制できます。
- 標本平均の平均 = \(\mu\)
- 標本平均の分散 = \(\frac{\sigma_2}{n}\)
- 標本平均の標準偏差 = \(\sqrt{\frac{\sigma_2}{n}}\)
これらの値を用いて、サンプル数4人の標本平均体重65kgの母平均を区間推定を行ってみます。
\( -1.96 \leq \frac{65-\mu}{\sqrt{\frac{5_2}{4}}} \leq 1.96 \)
\(60.1kg \leq \mu \leq 69.9kg\)
先程と比べて、標本平均の標準偏差を用いたことにより区間が短くなっていることが分かります。
母分散が未知の場合
母分散が未知の場合には、標本から得られた分散から区間推定を行います。
しかし、そのまま標本分散を使用すると母分散を過小評価してしまうため不偏分散で代用する必要があります。
不偏分散を代用する場合の母平均の区間推定(標本数が十分でない場合): t分布
- 母分散が未知で不偏分散を代用
- 標本数が充分でない場合
標本平均は正規分布ではなく、t分布に従います。
t分布の形は自由度によって異なり、自由度はサンプル数であるnに1を引いて求めます。
先ほどと同じ様にサンプル数4人の標本平均体重65kgの母平均を区間推定を行います。
- n = 4人
- 自由度 = 4-1 = 3
- 不偏分散 = \(5_2\)
自由度3のt分布の値は、両側5%点の値は3.182になります。これらを計算すると・・・
\( -3.182 \leq \frac{65 – \mu}{\sqrt{\frac{5_2}{4}}} \leq 3.182 \)
\( 57.04kg \leq \mu \leq 72.95kg\)
と求められ、母分散が既知の場合と比べ区間が広くなっていることがわかりました。
中心極限定理を利用した区間推定(標本数が十分大きい場合)
前述では
- 母分散が未知 -> 不偏分散で代用
- 標本数が少ない
という状況では、t分布から区間推定を行いました。しかし、標本数が充分大きければ「中心極限定理」の平均は正規分布にしたがうという性質を利用して求めることが可能です。
ある母集団から無作為抽出した標本の平均は標本の大きさを大きくすると母平均に近づく。これに対し中心極限定理は標本平均と母平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。
wikipedia – 中心極点定理
- サンプル数は30 => n = 30
- 標本平均は65kg
- 母分散は未知のため、不偏分散で代用 = \(5_2\)
この条件で求めてみましょう。今回はサンプル数が多いので正規分布を使用して求めます。
\( -1.96 \leq \frac{65 – \mu}{\sqrt{\frac{5_2}{30}}} \leq 1.96 \)
\(63.46kg \leq \mu \leq 66.54kg\)
となりました。やはりサンプル数が多いと区間もかなり短くなりますね!
コメント