統計学における推計統計学(統計的仮説検定、推定)は、限られたデータ(サンプル)から、興味があるグループ全体(母集団)に関する結論を導こうとする際に利用されます。
今回は、推定、検定とは何かを統計学で利用される用語を利用して説明します。
専門用語を使わずに、推定、検定のざっくりとした理解を得たい方は「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」をお読みください。
また、当記事は「母集団」「標本」「パラメータ」「統計量」「P値」「統計量の分布」「有意」といった用語を利用しますので、それらの理解に不安がある方は、先に以下の記事をお読みになり、基本的な用語を理解されることをお勧めします。
– 統計学での重要用語「母集団」「標本」「パラメータ」「統計量」
– 統計量、検定統計量とは何か?統計量の標本分布と標準誤差。
– 統計学的検定のP値、統計学的に有意、有意差、有意水準とは何か?
それでは、推定、検定について説明していきます。
【目次】
統計学的推定とは何か?
-点推定
-区間推定
-信頼区間
-信頼区間の正しい解釈
統計的仮説検定とは何か?
-仮説検定の例とメカニズム
-P値と有意水準の関係
-仮説検定の解釈に関する注意点
— 注意点1:「帰無仮説が棄却できない」=「帰無仮説が正しい」ではない。
— 注意点2:統計的な有意差は因果関係を意味しない。
統計学的推定とは何か?
統計学的推定とは、母集団のパラメーターの値がどれくらいになるか、
手持ちのサンプルから結論付ける手法です。
点推定
「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」と同じ例で解説します。
ここでは母集団を「日本の大学生全員」、推定したいパラメータは「日本の大学生全員の中で、ツイッターをしている人の割合」とします。
大学生100人にアンケートをとって40人がツイッターをしていると回答したとします。ここでのサンプルは「抽出された大学生100人」、統計量、つまり、「抽出されたサンプルの中でツイッターをしている人の割合」は40%ですね。
ですので、このケースでは点推定の推定値は40%となり、「日本の大学生全員の中でツイッターをしている人の割合は約40%である」と推定することができます。
しかし、ここで一つ問題があります。
点推定で、「日本の大学生全員の中でツイッターをしている人の割合は約40%である」と結論付けたは良いものの、「約40%」とはどういう意味なのでしょうか?35%でも「約40%」の範囲内に入るのでしょうか?
区間推定
上のような疑問に答え、パラメータが含まれるであろう値を区間で表すのが区間推定です。
例えば「パラメータの値はおそらく(35%,45%)の間である」などと結論を出すことができます。
しかしここでもう一つ問題が発生します。
「パラメータの値はおそらく(35%,45%)の間である」と結論付ける時、この「おそらく」とはどういう意味でしょうか?
推計統計学では限られたサンプルから、母集団やパラメータに関する結論を導こうとするので、「パラメータの値はおそらく(35%,45%)の間である」といったところで、これが100%正しいとは言い切れないわけです。
そこで登場するのが信頼区間です。
信頼区間
信頼区間により、「パラメータの値は●●%の確率で(35%,45%)の間である*」などと結論を出すことができます。
(*注 この解釈は厳密に言うと間違っているので、当ページ内の次のセクションで正しい解釈を説明します。)
95%の信頼区間であれば、「95%の確率でパラメータは(35%,45%)の間である」と結論づけることができるわけです。
なお、統計量40/100をもとに、95%の信頼区間を計算すると(30%,50%)となり、「95%の確率でパラメータは(30%,50%)の間にある」と言えます。
信頼区間の正しい解釈
上で「95%の確率でパラメータは(30%,50%)の間にある」と結論付けましたが、この解釈は厳密には間違いです。
なぜなら、パラメータは確率変数ではなく、一つの値が定まっているものであり、分布しないからです。
例えば、日本には約280万人の大学生がいるらしいのですが、母集団のサイズを280万人ちょうどと仮定し、ツイッターを利用している大学生が110万人ちょうどと仮定してみます。
この場合、パラメータ、つまり母集団におけるツイッターを利用する大学生の割合は110万/280万=0.393 つまり39.3%ですね。
つまりパラメータの値は39.3%という決まった数値あって、確率変数ではありません。
しかし、「95%の確率でパラメータは(30%,50%)の間にある」と言ってしまうと、
あたかもパラメータが確率分布に従う変数であるかのように聞こえます。
では、正しくはどのように解釈すれば良いのか?
95%の信頼区間の正しい解釈は
「母集団から同じサンプルサイズのサンプルを何度も繰り返し抽出し、たくさんの信頼区間を計算すると、それらの信頼区間のうち95%がパラメーターの値を含む。」
となります。
統計的仮説検定とは何か?
仮説検定は、ある仮説が正しいと結論づけるために十分な根拠があるか?を決める手法です。
仮説検定において、母集団におけるパラメータや分布に関して仮説を設定し、
その仮説が正しいかどうかを標本(サンプル)から得られるデータをもとに決定します。
仮説検定の例とメカニズム
仮説検定では、まずは結論付けたい仮説を設定します。
例えば、「日本の内閣支持率は50%より低い」と結論付けたいとしましょう。
この場合、母集団は「日本の有権者全員」と考えることができます。
ここで日本の有権者全員の内閣支持率をパラメータとして、帰無仮説と対立仮説を設定すると以下のようになります。
有意水準はとしましょう。つまりP値が0.05よりも小さければ、帰無仮説を棄却し、対立仮説が正しいと結論づけることとします。
日本の有権者全員にアンケートをとって、内閣を支持するかを聞くのは事実上不可能なので、母集団からできるだけバイアスがないように標本(サンプル)をとります。
例えば、100人を母集団からランダムにサンプリングして、41人が内閣を支持すると応えたとしましょう。
この場合の統計量は、サンプルの内閣支持率なので41%ですね。
この統計量の42/100をもとに、Rを用いてP値を計算するとP値は0.044です。
【Rコード】
prop.test(x=41, n=100, alternative = "less")
つまり、帰無仮説が正しい()と仮定した場合、母集団から何度も100人をサンプリングして、何度も内閣支持率を算出すると、それらのサンプルにおける内閣支持率が41%である、または、41%よりも低い確率は4.4%です。
これは仮に母集団の内閣支持率が50%だった場合、ランダムに100人を抽出して、
そのサンプルの内閣支持率が41%かそれ以下になる確率はたった4.4%としかないということです。
ですので、この例では有意水準を0.05(5%)に設定していますので、
そもそもの母集団の内閣支持率は50%であるという仮定が間違っていたと考え、
帰無仮説を棄却し、対立仮説が正しいと結論付けます。
仮説検定の様々な例に関しては「統計学の基礎」の中で、割合の検定、平均値の検定などを一つづつ解説していきます。
P値と有意水準の関係
上の例ではP値が有意水準より小さかったので、帰無仮説を棄却し、対立仮説が正しいと結論付けました。
仮説検定においては:
P値が有意水準より小さかった場合、帰無仮説を棄却し、対立仮説が正しいと結論付けます。
P値が有意水準より大きかった場合、帰無仮説を棄却することはできません。よって対立仮説が正しいと結論づけることはできません。
仮説検定の解釈に関する注意点
注意点1:「帰無仮説が棄却できない」=「帰無仮説が正しい」ではない。
「帰無仮説が棄却できない」=「帰無仮説が正しい」ではありません。
例えば上の例をもう一度見てみましょう。母集団(日本の有権者全員)の内閣支持率をとして、仮説を以下のように設定します。
データをとって検定を行ったところ仮にP値が0.35と有意水準より大きかったとしましょう。
これをもって、「日本の有権者の内閣支持率が50%である。」とか、「日本の有権者の内閣支持率は50%以下である。」と言うことはできません。
あくまで、言えることは「データをとって検定を行った結果、対立仮説が正しいと結論付けるのに十分な根拠がない。」です。つまり、「日本の有権者の内閣支持率が50%より低いと結論付けることはできない。」ということです。
「日本の有権者の内閣支持率が50%より低いと結論付けることはできない。」からと言って、必ずしも「日本の有権者の内閣支持率が50%またはそれ以上である。」ということではないのです。
注意点2:統計的な有意差は因果関係を意味しない。
検定で統計的な有意差が出たとしてもそれは必ずしも因果関係を意味しません。
例えば、タバコを吸う人と吸わない人のガンの発症率に違いがあるかを検定して、有意差が出たとします。
これにより、この二つのグループでガンの発症率が違うと結論付けることができます。
しかし、だからと言って、タバコがガンの原因であるとは、統計学的に結論付けることはできません。
タバコ以外にも別の要因があるかもしれないからです。
因果関係を結論付けるためにはどうすればよいか、に関しては「統計学を用いた因果関係の結論付け。観察研究/実験研究/ランダム化比較試験」で説明しています。