今回は統計学的検定において「P値」「統計学的に有意」「有意差」「有意水準」とは何か?を解説していきます。
P値や有意差は推計統計学の根幹をなすと言ってもよい重要な概念であるにも関わらず、その意味を理解せずに利用している研究者があまりにも多いのが現実です。当ページではP値、統計学的に有意という概念の意味をわかりやすく説明します。
【目次】
P値とは何か?
統計学的に有意とは何か?
有意差とは何か?
有意水準とは何か?
P値、有意性解釈の注意点。因果関係。
P値とは何か?
P値とは帰無仮説が正しいと仮定した時に、実際に観測されたデータ以上に対立仮説が正しいことを支持するデータが観測される確率のことです。
はい、こちらがP値の定義ですが、P値が何なのかを理解していない人にとってはこんなことを言われても全く意味不明だと思います。
以下、例を用いて解説します。
ある1枚のコインがあった時、そのコインが表が出やすいように歪んでいるかを統計学的検定を用いて検定したいとしましょう。
(統計学的検定そのものが何なのか分からない方は「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」の記事がおすすめです。)
さて、「そのコインが表が出やすいように歪んでいる」=「そのコインを投げて表が出る確率は50%より大きい」と考えて、以下のように仮説を設定します。
さて、データを集めましょう。そのコインを10回投げて、8回表が出たとします。
この場合のサンプルサイズはn=10, 統計量(得られたサンプルの表がでる確率)は8/10=80%ですね。
さて、このデータからコインは表が出やすいと結論づけられるでしょうか?
ここでP値の登場です。有意水準に関しては後ほど解説しますので、ここではP値が0.05より小さければ帰無仮説を棄却して、対立仮説が正しいと結論づけることにしましょう。
さて、P値とは帰無仮説が正しいと仮定したときに、実際に観測されたデータ以上に対立仮説が正しいことを支持するデータが観測される確率のことでしたね。
この定義に則って、まずは帰無仮説が正しいと仮定します。
つまり「そのコインを投げて表が出る確率は50%である。」と仮定します。
また、ここで実際に得られたデータである統計量は80%でしたね。
つまりここでのP値は、「コインが歪んでいないと仮定した時(表が出る確率が50%だった場合)、そのコインを10回投げて8回以上表が出る確率」のことです。
つまり、そのコインを投げて「8回表が出る確率」+「9回表が出る確率」+「10回表が出る確率」のことですね。
これらの確率は二項分布の公式を用いて計算することができます。
(二項分布が分からない方は「二項分布とは何か?期待値、分散、例 」のページで詳しく解説していますので参照してください。)
ここでは表が出る確率を50%と仮定するのでp=0.5となります。全部で10回、コインを投げるのでn=10です。Xは表が出た回数となります。
二項分布を用いて表が出る確率をp=0.5 (50%)と仮定して10回コインを投げた時、X回表が出る確率を以下の表に示します。
コインを10回投げて表がX回出る確率
表の回数(X) | 確率 |
0 | 0.001 |
1 | 0.010 |
2 | 0.044 |
3 | 0.117 |
4 | 0.205 |
5 | 0.246 |
6 | 0.205 |
7 | 0.117 |
8 | 0.044 |
9 | 0.010 |
10 | 0.001 |
表が8回以上出る確率を足しあわせてP値は0.044+0.010+0.001=0.055となります。P値が0.05より大きいので、ここでは帰無仮説は棄却できません。
つまり、あるコインを10回投げて8回表が出ても、「そのコインが表が出やすいように歪んでいる」ことを統計学的に結論づける十分な根拠はないということです。
統計学的に有意とは何か
統計学的仮説検定において、P値が十分に小さく、帰無仮説を棄却して代替仮説が正しいと結論づられるだけの根拠があることを「統計学的に有意である」と言います。
さて、それはつまりどういうことなのか説明しますね。
「統計学的に有意である」の意味するところは、仮説検定において、偶然で起こったとは考え難いレベルで対立仮説を支持する根拠があることです。
上述のコインの例に戻ります。
同じ例を使って、そのコインが表が出やすいように歪んでいるかを検証してみます。ただし、ここではコインを投げる回数を変えてみましょう。
例えば、そのコインを100回投げて51回表がでたとします。ここでは、統計量である標本割合は51/100=51%ですね。
さて、この51%というデータはこのコインが「表が出やすいように歪んでいる」ことを結論づけるための十分な根拠と言えるでしょうか?
そんなことはないですよね。「コインが歪んでいない(つまり表50%)」と仮定した場合でも、100回投げて51回表がでるのは、十分に偶然の範囲内で起こり得ることです。
次にコインを100回投げて99回表がでたとしましょう。ここでは統計量は99%です。
これだけ表が出れば、まず間違いなくコインは表が出やすいように歪んでいると考えてよさそうです。
つまりここでは、「コインが歪んでいない(つまり表50%)」と仮定した場合、100回このコインを投げて99回表がでることは、偶然ではほぼありえないと言って間違いないでしょう。
つまり、この「コインが歪んでいない(つまり表50%)」という仮定が間違っていたと考え、「コインは表が出やすいように歪んでいる」と結論づけるわけです。
ですので、この検定の結果は「統計学的に有意である」と言えます。
統計学的に有意とは、「偶然ではありえない!」ことであるとお分かりいただけたでしょうか?
有意差とは何か?
二つ以上のグループを比較する検定において、「有意差があった」「有意差がなかった」などと言われますね。「有意差がある」とは通常、二つのグループを比べる際に利用される検定において、結果が「統計学的に有意」であることを指します。
例えば、日本人のツイッター利用率と、アメリカ人のツイッター利用率に差があるかどうかの検定をしたいとします。
検定を行った結果、この「日本人」というグループと「アメリカ人」というグループにおける、ツイッターの利用率に差があったと結論づけられた場合、「2つのグループのツイッター利用率の間には有意差があった」と言います。
有意水準とは何か?
有意水準(を用いて表す)とはP値がどれくらい小さければ帰無仮説を棄却するかどうかの基準です。有意水準は検定を行う前に決定します。
データ取得後、P値を計算し、P値があらかじめ定められた有意水準よりも小さければ帰無仮説を棄却し、対立仮説が正しいと結論付けます。
通常、有意水準は(5%)に設定されることが多いです。
P値、有意性解釈の注意点。因果関係。
検定を行い、P値が有意水準より小さく、検定結果が「統計的に有意」だったとしても、それは「因果関係」を意味しません。
有意性と因果関係については以下のコラム記事で説明をしています。