巷では統計学を悪用、誤用して、間違った因果関係を結論づけようとする言説で溢れています。
例えば、
「毎朝コーヒーを1杯以上飲む人はそれ以外の人と比べて癌(ガン)発症のリスクが50%低いことが東京大学の研究者によって示された。実験結果はp<0.05で統計学的に有意であった。」
という例を考えてみましょう。
これは筆者が作った例ですが、上記が本当だった場合、毎朝コーヒーを飲むことにより、ガンになる確率が下がるということでしょうか?
答えは「ノー」です。
今回は、観察研究、実験研究、ランダム化比較試験という用語と共に、統計学において因果関係を結論づけるためにはどうすればよいのか?を説明していきます。
【目次】
観察研究(Observational Study)とは何か?
実験研究(Experimental Study)とは何か?
ランダム化比較試験(Randomized Experiment)とは何か?
まとめ
観察研究(Observational Study)とは何か?
観察研究(Observational Study)とは研究者が操作や治療を被験者(個体)に与えるかどうかをコントロールせずに、観測されるありのままの状態を研究に利用する手法です。
観察研究においては、グループを比較した結果が統計的に有意だったとしても、因果関係を結論付けることはできません。
例を挙げます。
ある研究者が、喫煙者と非喫煙者で肺癌の発症率に差があるかを調べたいとします。
通常、こういった場合、すでにタバコを吸っている人たちと、タバコを吸っていない人たちを標本として集めてきて、喫煙者グループと非喫煙者グループの間で、肺癌の発症率に差があるかを調べます。
ポイントは、この際、研究者は「喫煙」という「操作」を各個人に与えているのではなく、すでに喫煙をしている人と、喫煙をしていない人をそのままの状態で観察しているということです。
この状態では、仮に喫煙者のグループの方が発ガン率が高かったとしても、喫煙が原因で癌が発症するという結論付けはできません。
なぜなら、喫煙者グループに共通する、何か別の要因が、発ガンの原因になっているかもしれないからです。これを交絡因子(Confounding Factor)と呼びます。
例えば、この場合ではもしかすると、喫煙者は一般的に健康への意識が低く、それが原因で癌の発症率が高いのかもしれません。
(繰り返しますが、これはあくまで筆者が考えた例です。)
このように、統計学では有意差が出たとしても、観察研究から因果関係を結論づけてはいけないのです。
なお、これはあくまで「統計学的に因果関係を結論づけることができない」だけであって、「医学的、生物学的には因果関係を結論づけることができる」かもしれません。
統計学的な因果関係と、各専門分野での因果関係は別であることを認識しておきましょう。
実験研究(Experimental Study)とは何か?
実験研究(Experimental Study)とは研究者が操作や治療を被験者(個体)に与えるかどうかをコントロールする手法です。
上記の喫煙者、非喫煙者の比較の例は観察研究でしたが、これを実験研究にするには、
被験者を2つのグループにわけ、片方のグループの人には喫煙をしてもらい、もう一つのグループの人には喫煙をしないでもらう、という操作をします。
そして、数年〜数十年のスパンで研究を継続すれば、各グループで肺癌の発症率に差があるかどうかを比較することができますね。
実験研究においては、このグループ分けがランダムに行われ、プラシーボ(偽薬)を操作や治療を受けないグループに与えるなどのいくつかの条件が満たされる場合、交絡要因が取り除かれ、因果関係を結論づけることができます。
しかし、実際にはこのようなことは倫理的な理由から現実的ではありません。
癌などの発症率が高くなるであろうと考えられる喫煙という操作を意図的にあるグループの人たちに長期間に渡って与えるのは倫理的とは言えませんね。
そのため、通常の研究や調査では、観察研究に頼らざるを得ない場合も多いです。
ランダム化比較試験(Randomized Controlled Trial)とは何か?
ランダム化比較試験(Randomized Controlled Trial, Randomized Experiment)とは操作や治療を被験者(個体)にランダムに与える手法です。
ランダム化比較試験においては、以下の条件を満たすことにより、交絡要因が取り除かれ、操作(説明変数)と結果(応答変数)の間に因果関係を結論付けることができます。
・操作や治療が被験者にランダムに割り当てられる。(ランダム化)
・操作を受けないグループには偽薬を与える。(プラシーボ)
・観測にバイアスがかからないように被験者だけでなく、研究者もどちらが操作を受けたグループか分からない状態で研究を進める。(ダブルブラインド)
プラシーボを利用する理由は、薬の効果を調べる場合など、本当は薬自体の効果がなかったとしても、多くの人が「薬を飲んだ。」という事実により、体調が改善された気がしてしまうためです。
そのため、「本当は効果のない偽物の薬(プラシーボ)」と、「本当の薬」をランダムに分けられた各グループに与え、その差を見るわけです。
まとめ
このように、観察研究においては統計学的な因果関係を結論づけることはできません。
逆に、ランダム化比較試験のように、交絡要因が取り除かれた実験研究においては、因果関係を結論付けることができます。
多くのニュースメディアでは、この差を理解せず、適当に2つのグループを比べ、あたかも因果関係があるかのように仕立てていますので、これからは、ニュースや研究結果を見る際にはこの点を注意していただければと思います。