社会人が統計学の基礎を学び、実務で活かす

相関関係、相関係数、疑似相関とは何か?

スポンサーサーチ

「相関関係」と「相関係数」は一見、簡単に理解できそうですが、
実は間違って解釈をされていることが非常に多い統計学の用語です。

今回は、相関関係、相関係数、疑似相関とは何か?
また、よくある間違いを犯さないための注意点を解説していきます。

知っているか知らないかで、メディアを見て騙されるか、見抜けるかが
決まると言っても過言ではないコンセプトですので、おさえておきましょう。

【目次】
相関関係とは何か?
-時給の例
-営業マンが働いた日数と売り上げの関係
-高いところから球を落とした場合の時間(秒)と落下距離の関係
相関係数とは何か?
-相関係数の計算の仕方
-1,時給の例の相関係数。
-2,営業マンが働いた日数と売り上げの相関係数
-3,高いところから球を落とした場合の時間(秒)と落下距離の相関係数
疑似相関とは何か?
練習問題
練習問題回答

相関関係とは何か?

一般的には相関関係とは

「2つの変数において一方の変数が増えるにつれて、もう一方の変数も増える(または減る)関係」

と考えられています。

しかし、同時に「相関関係」は英語では”Correlation”と訳されます。

英語でCorrelationと言った場合、

「2つの変数に(直線の)線形の関係」があることを指します。

日本語の「相関関係」を英語で言いたい場合、”Association”と
言う方が正しいです。

“Association”と言った場合は、「直線的な関係」という意味は特になく、
2つの変数が曲線的に関連しているケースを含みます。

例を示します。

時給の例

あなたが時給1000円で働くアルバイト店員だとしましょう。
この場合、働いた時間が増えるごとに、直線的に稼ぎが増えます。

グラフにすると以下のようになりますね。

この例の場合は、働いた時間と給料は、まったくばらつきのない、完全な相関関係があります。このような完全な相関関係がある場合は、すべての点が直線上に並びます。

営業マンが働いた日数と売り上げの関係

上記の時給の例では、時給と給料の関係は全くばらつきがなく、「給料=労働時間x1000円」の式で表すことができました。

しかし、多くのケースにおいて二つの変数がこのように完全な相関関係を持っているわけではありません。

例えば、30人の営業マンを分析して、1ヶ月に働いた日数と、売り上げの関係が以下のようになったとしましょう。

この場合も、営業日数の多い営業マンほど売り上げも直線的に増加する相関関係があります。

ただし、同じ日数、仕事をした人が皆、同じ売り上げが上がるわけではなく、売り上げに多少のばらつきがあります。そのため、各点(データポイント)は直線上に並ばず、直線の上下に分布します。

高いところから球を落とした場合の時間(秒)と落下距離の関係

高いところから球を落とした場合のt=1,2,3,4,5,6,7秒後の落下距離を

距離(m) = 4.9t^2

とすると、時間と落下距離の関係は”曲線的”な関係があります。

このケースの場合では、確かに時間が経過するに連れて、距離が伸びるという意味では、日本語で通常言われる相関関係があると言えます。

しかし、以下にて相関係数の項目でも触れますが、このケースでは、「時間と距離の関係にばらつきがない」のにもかかわらず、データに直線を引いた場合、データポイントは直線上に並びません。

このように「相関関係」を英語で表した”Correlation”は、2つの変数の直線的な関連性のことを言いますので、この場合は完全な相関関係にはなりません。

相関係数とは何か?

相関係数

相関係数とは、2つの変数の直線的な相関関係の強弱を-1から1の間で表したものです。標本の相関係数(r)は以下の公式で求められます。

相関係数: r=\dfrac{\Sigma^{n}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{(\Sigma^{n}_{i=1}(x_{i}-\bar{x})^{2})(\Sigma^{n}_{i=1}(y_{i}-\bar{y})^{2})}}

なお、サンプルにおける相関係数はrで表しますが、母集団における相関係数は\rho(ギリシャ文字、「ロー」と読む)で表します。

相関係数が1のとき、2つの変数の間にはばらつきの全くない完全な正の相関があり、相関係数が−1のとき、完全な負の相関があります。

「正の相関」とは、一つの変数が増えるに連れて、もう一方も増えること、「負の相関」とは、一つの変数が増えるに連れて、もう一方が減ることを意味します。

相関係数が0のとき、2つの変数には相関関係がありません。つまり、一つの変数が増えても、もう一つの変数が変わらないことを意味します。

相関係数の絶対値が1に近くに連れて、相関関係が強くなります。

相関係数の公式は多少複雑なので、通常はエクセル(=CORREL()関数)やR(cor()関数)、Python(np.corrcoef()関数)などのソフトウェアなどを利用して計算します。

まずは簡単な例で相関係数の求め方を説明した後、上記で見てきた例の相関係数をソフトウェアを利用して求めてます。

相関係数の計算の仕方

それでは4人の生徒の数学と英語のテストの点数が以下のようになっているとき、相関係数を求めてみます。

数学 100 90 80 60
英語 90 60 75 65

まず、数学の点数を変数xとして、英語の点数を変数yとすると、数学の点数の標本平均は\bar{x}=(100+90+80+60)/4 =
82.5と計算できます。同じように、英語の点数の標本平均は\bar{x}=72.5と計算できます。

次に相関係数の公式の分子と分母をそれぞれ計算します。

分子=\Sigma^{4}_{i=1}(x_{i}-\bar{x})(y_{i}-\bar{y})=(100-82.5)(90-72.5)+(90-82.5)(60-72.5)+(80-82.5)(75-72.5)+(60-82.5)(65-72.5)=375

分母={\sqrt{(\Sigma^{4}_{i=1}(x_{i}-\bar{x})^{2})(\Sigma^{4}_{i=1}(y_{i}-\bar{y})^{2})}}\sqrt{((100-82.5)^2+(90-82.5)^2+(80-82.5)^2+(60-82.5)^2)((90-72.5)^2+(60-72.5)^2+(75-72.5)^2+(65-72.5)^2)}=644.69

r=相関係数=375/644.69=0.55.

1,時給の例の相関係数。

労働時間と給料の関係

働いた時間 給料
1時間 1,000円
2時間 2,000円
3時間 3,000円
4時間 4,000円
5時間 5,000円
6時間 6,000円
7時間 7,000円
8時間 8,000円

この場合は、労働時間と給料の2つの変数の間に全くばらつきのない正の相関があるので、相関係数は1となります。

2,営業マンが働いた日数と売り上げの相関係数


出勤日数と売上げの関係

出勤日数(日) 月間売り上げ(万円)
20 153, 177, 181, 175, 160
21 180, 167, 179, 164, 178
22 172, 179, 183, 173, 181
23 193, 203, 200, 185, 195
24 179, 190, 193, 189, 199
25 192, 214, 208, 196, 186

このケースでは、エクセルやRなどの関数を使って相関係数を求めるとr=0.773となります。相関係数が正で、1に近いのでこれは「やや強い正の相関」があると言えます。

なお、相関係数がいくつ以上であれば強い相関、いくつ以下であれば弱い相関なのか?といった絶対的な基準はありません。

3,高いところから球を落とした場合の時間(秒)と落下距離の相関係数

時間と落下距離の関係

時間 落下距離
0秒 0
1秒 4.9m
2秒 19.6m
3秒 44.1m
4秒 78.4m
5秒 122.5m
6秒 176.4m
7秒 240.1m

このケースでは、相関関係を求めるとr=0.96となります。

この時間と距離は全くばらつきがない曲線的な関係にあるため、「直線的な」相関係数を求めると完全な正の相関関係であるr=1にはならないのがお分かり頂けると思います。

疑似相関とは何か?

疑似相関とは、2つの変数の間に交絡因子により因果関係があるように見えることを言います。

通常のメディアやニュースなどで、

「コーヒーを飲む人はガンの発症率が低い」とか、
「朝食を抜くひとは、脳出血の発症率が高い」とか、
「女性の就業率高い社会では離婚率が高い」

といった相関関係があたかも因果関係のように取り上げられていますが、これらは、統計学的に因果関係を結論づけることはできません。

例えば、「女性の就業率高い社会では離婚率が高い」に関しては、女性への教育が進んでいるという交絡要因があるかもしれません。

これらの統計学的な因果関係の結論付けや、交絡要因に関しての詳細は「統計学を用いた因果関係の結論付け。観察研究/実験研究/ランダム化比較試験」をお読みください。

練習問題

1、5人の身長と体重が以下のように与えられているとき、相関係数を求めてください。
2、この相関係数を見て、身長が高いことが体重が多いことの間に、因果関係があることを統計学的に結論づけることができますか?

身長 体重
160cm 60kg
165cm 70kg
170cm 75kg
175cm 75kg
180cm 90kg

練習問題回答

1, r = 0.948
2, 因果関係を結論づけることはできない。


スポンサー募集中。

統計ドットリンクでは広告出稿をご希望のスポンサー様を募集しております。ページビューなどは、「お問い合わせ」からご連絡ください。

更新・勉強会などの情報を受け取る。

以下からFacebookページをフォローもしくは、メールマガジンへの登録をすると、更新情報、勉強会、講習会、交流会の案内など各種情報を受け取ることができます。

↑こちらからFacebookページをフォロー。
 

メルマガ登録はこちら

理系の就職・職業訓練

統計ドットリンクでは、理系の大学生、大学院生、第二新卒の就職や転職を応援しています。職業訓練、求人やエージェントなどの必要な情報を選別し、紹介しています。 就職、職業訓練の情報を確認する。
PAGETOP
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.