今回は統計的仮説検定における「第1種の誤り(第1種過誤、タイプ1エラー、αエラー)」「第2種の誤り(第2種過誤、第2種の誤り、タイプ2エラー、βエラー)」「検出力(パワー、検定力)」について説明します。
なお、「統計的仮説検定」や「統計学的に有意」、「有意差」、「有意水準」の概念の理解が浅い方は、以下の記事を先にお読みになることをお勧めします。
-「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」
-「統計学的検定のP値、統計学的に有意、有意差、有意水準とは何か?」
【目次】
第1種の誤り(第1種過誤、タイプ1エラー、αエラー)とは何か?
第2種の誤り(第2種過誤、タイプ2エラー、βエラー)とは何か?
第2種の誤りとサンプルサイズの関係
検出力(パワー、検定力)とは何か?
検出力とサンプルサイズの関係(検出力分析、パワーアナリシス)
第1種の誤り(第1種過誤、タイプ1エラー、αエラー)とは何か?
統計的仮説検定において第1種の誤り(第1種過誤、タイプ1エラー、αエラー)とは帰無仮説が正しいのにも関わらず、帰無仮説を棄却してしまうことです。
通常、第1種の誤りが起こる確率をα(アルファ)で表します。
こちらの「統計学的検定のP値、統計学的に有意、有意差、有意水準とは何か?」のページで例に出したコイン投げの仮説検定をもう一度考えてみましょう。
あるコインを10回投げて、そのコインが表が出やすいように歪んでいると結論付けることができるか検定します。仮説は以下のようになります。
さて、ここでは「このコインは本当は歪んでいない。」と仮定してみます。
「このコインは歪んでいない」つまり、「このコインを投げて表が出る確率はちょうど50%」なので、この場合は実際に帰無仮説が正しいですね。
さてこのコインを投げて表が出る確率が50%だった場合、10回このコインを投げた結果10回とも表がでることはあり得るでしょうか?
確率的にはとても小さいですが、あり得なくはないですね。
つまり、帰無仮説が正しかったとしても、の確率で10回すべて表が出ます。
このデータを基に、P値を計算するとP値は0.00097となり、非常にP値が小さいので帰無仮説は棄却され、対立仮説が正しい(このコインの表が出る確率は50%より高い、又は、表が出やすいように歪んでいる)と結論づけられます。
このケースでは、帰無仮説が正しい(コインは歪んでいない)にも関わらず、仮説検定の結果としては帰無仮説は棄却され、コインが歪んでいると結論づけられました。
これが第1種の誤りです。
仮説検定において、例えば有意水準を5%と定めた場合、第1種の誤りを犯す確率は5%、つまり α=0.05 となります。
上の例では、有意水準を5%に定めた場合、そのコインが本当は歪んでいないのにも関わらず、検定結果が歪んでいると結論づけてしまう確率は5%となります。
第2種の誤り(第2種過誤、タイプ2エラー、βエラー)とは何か?
統計的仮説検定において第2種の誤り(第2種過誤、第2種の誤り、タイプ2エラー、βエラー)とは対立仮説が正しいのにも関わらず、帰無仮説を棄却しないことです。
通常、第2種の誤りが起こる確率をβ(ベータ)と表します。
上と同じ例を見てみます。
今回は、このコインが実際には歪んでいて、このコインを投げて表が出る確率は本当は80%であったと仮定してみます。
このコインを10回投げた時、丁度5回表が出ることはあり得るでしょうか?
表が出る確率が80%であれば、だいたい8回くらい表が出ることが多いですが、表が丁度5回でることも十分にあり得ますね。
すると、実際に得られたデータ(統計量)は50%ですので、このデータを基に考えると、このコインが表が出る確率は50%よりも高いとは言えませんね。
そのため、帰無仮説を棄却するのに十分な根拠がありませんので、帰無仮説は棄却できません。つまり、このコインが表が出やすいように歪んでいるとは結論付けることができません。
この場合は、本当は対立仮説が正しい(コインの表が出る確率は80%)であるのにも関わらず、帰無仮説を棄却することができず、対立仮説が正しいと結論付けることができませんでした。
この誤りを第2種の誤りと呼びます。
第2種の誤りとサンプルサイズの関係
第2種の誤りを犯す確率(β:ベータ)は、検定手法やサンプルサイズ、本当のパラメータの値(この例では表が出る本当の確率)によって変化します。
他の条件が一定であれば、サンプルサイズを増やせば増やすほどベータエラーが起きる確率は減少します。
通常、仮説検定を行う際には、まずは有意水準(α)を設定した上で、十分にβが小さくなるようにサンプルサイズをどれくらい集めれば良いかを計算します。
例えば上の例で言えば、有意水準を5%に設定した上で、βが20%以下になるためには、何回コインを投げなければいけないか?を考えるわけです。
βを十分に低くするためのサンプルサイズの計算方法はここでは省略しますが、SASやRなどの統計学の解析ソフト、プログラミング言語のパッケージなどを利用して計算することが可能です。
検出力(パワー、検定力)とは何か?
統計的仮説検定において検出力(パワー、検定力)とは、対立仮説が正しいとき、利用する検定によって帰無仮説を棄却する確率です。
検出力と第2種の誤りの関係として、以下の式が成り立ちます:
検出力 = 1 – (第2種の誤りの確率) = 1 – β
また検出力は利用する検定の種類、設定する有意水準、本当のパラメータの値*、サンプルサイズによって決まります。
*補足: この「本当のパラメータの値」は厳密には「効果量(effect size)」と呼ばれるパラメータの関数のことです。
検出力とサンプルサイズの関係(検出力分析、パワーアナリシス)
多くの研究、リサーチにおいて、研究者が統計的仮説検定を利用する際、研究者は自分の仮説(多くの場合、対立仮説)を統計学的に結論付けるために、帰無仮説を棄却したいと考えています。
そのため、対立仮説が本当に正しいのであれば、できる限り、検出力を上げたいわけです。
そして他の条件が一定であれば、サンプルサイズが増えるほど検出力は上がります。
しかし、サンプルを抽出するのもタダではありません。
新しく開発された薬を治験などで投与して、効果を見る場合など、
サンプルの被験者を集めるのは時にとてもお金がかかります。
そのため、「新しい薬が今までの薬と比べて効果があるか?」などを実験する際など、
例えば、有意水準αを5%に設定して、検出力を80%以上確保するためには
どれくらいの数のサンプルサイズを集めなければいけないかを計算する必要があります。
これを検出力分析、又はパワーアナリシスと呼びます。
なお、上に述べた「βを十分に低くするためのサンプルサイズ」と「検出力を十分に確保するためのサンプルサイズ」は全く同じ意味です。
検出力とサンプルサイズの関係を調べる具体的な手法はここでは省きますが、SASやRなどの統計学の解析ソフト、プログラミング言語のパッケージなどを利用して計算することが可能です。