2つの割合に有意差があるか検定する。
Z検定とは2つの標本(サンプル)から得られた各割合に統計学的有意差があるかを調べる検定です。
コラム「「コーヒー1日3杯で脳腫瘍リスク減」は信用できるのか?」では、以下の表のように、コーヒーを1日3杯以上飲む人は3万人中33人が脳腫瘍を発症、1日1杯未満しか飲まない人は3万人中70人が脳腫瘍を発症したと仮定し、脳腫瘍発症率の割合に2つのグループで有意差があるかどうか検定をしました。
もう少し正確に言うと、1日3杯以上飲む人の方が脳腫瘍の発症率が1日1杯未満しか飲まない人に比べて低いと結論付けられるかどうかを、片側Z検定を用いて調べました。
1日のコーヒー | サンプルの人数 | 脳腫瘍発生人数 | 脳腫瘍発症割合 |
3杯以上 | 3万人 | 33人 | 0.11% |
1杯未満 | 3万人 | 70人 | 0.23% |
この検定は以下のコードで行うことができます。
prop.test(x=c(33,70), #各グループの脳腫瘍発症人数 n=c(30000,30000), #各グループの標本サイズ alternative = c("less"), #片側検定 correct = F #イェイツ補正(Yates' continuity correction)をしない。 )
すると以下のような結果が得られます。
data: c(33, 70) out of c(30000, 30000)
X-squared = 13.314, df = 1, p-value = 0.0001317
X-squared = 13.314, df = 1, p-value = 0.0001317
多くの統計学における検定では5%、つまり0.05を有意水準として利用しますが、今回はP値が0.0001317と有意水準をはるかに下回っているので、この検定は統計学的に有意であると結論付けられます。
仮に3杯以上コーヒーを飲む人たちの脳腫瘍の発症率が低いかどうか?ではなく、3杯以上飲む人たちと、1杯未満しか飲まない人たちの脳腫瘍の発症率に違いがあるかどうか?を調べたい場合には、片側検定ではなく、両側検定を行いますので、
prop.test(x=c(33,70), n=c(30000,30000), alternative = c("two.sided"), #両側検定 correct = F)
というように alternative = c(“two.sided”)を用いて両側検定を指定します。