今回は、推計統計学における重要用語、「母集団」「標本」「パラメータ」「統計量」の意味と、推定、検定の中でどのような位置づけでこれらの用語が出てくるのかを説明していきます。
【目次】
「母集団」「標本(サンプル)」とは何か?
-母集団と標本の例
「パラメータ(母数)」「統計量」とは何か?
-パラメータと統計量の例
練習問題
練習問題回答
「母集団」「標本(サンプル)」とは何か?
推計統計学において母集団とは興味がある対象全体の集合のこと、標本とは母集団から抽出した部分集合です。
母集団は英語でPopulation、標本はSampleと呼びます。
推計統計学においては、私たちは母集団の性質に関して何らかの結論付けをしたいのですが、通常、母集団は大きすぎて母集団内の全員、または全部に対して質問をしたり、計測をしたりすることができません。
そのため、測定可能な大きさの標本を抽出し、得られたデータから母集団に関して推測するわけです。
母集団と標本の例
ここでは「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」であげた例をもう一度見てみましょう。
日本の大学生のツイッターを利用している人の割合を知りたいとします。
しかし、日本の大学生全員にアンケートをとって、「あなたはツイッターを利用していますか?」と聞くのは現実的ではありません。
ですので、大学生全員にアンケートをとるのではなく、数名〜数100名の大学生にアンケートをお願いするなどして、得られたデータから、大学生全体に対する結論を導こうとするわけです。
仮に、100名の大学生にこの質問をしたとしましょう。
ここで、母集団は「日本の大学生全体」、標本(サンプル)は「抽出された100名の大学生」となります。
この抽出された人数(または個体数)、ここでは100、を標本サイズ(または標本の大きさ、サンプルサイズ)と呼びます。
気をつけていただきたいのが、この場合は、「標本サイズ100の標本が1つある。」と考えます。
標本サイズのことを「標本数」「サンプル数」と呼ぶ人もいますが、この呼び方をすると、標本がいくつもあるように聞こえるので避けましょう。
「パラメータ(母数)」「統計量」とは何か?
続いてパラメータ、統計量について説明をしていきます。
パラメータ(または母数)は母集団を要約する値、統計量は標本を要約する値です。母集団の確率分布が決まっている場合、そのパラメータがわかると、分布の形が一つに決定されます。
パラメータは英語でparameter、統計量は英語でstatisticと呼びます。
上述したように、推計統計学においては母集団に関する結論を導こうとしますが、より具体的にいうと、統計的仮説検定や、推定においては、パラメータに関しての推測をします。
パラメータは母集団における平均値、割合、中央値、最大値、最小値、相関係数、回帰係数など、興味の対象となる様々な値が考えられます。
また、パラメータは固定された値であり、統計量は確率変数です。
少し抽象的になってしまったので、以下に例を見ていきましょう。
パラメータと統計量の例
上述の日本の大学生のツイッターを利用している人の割合の例で考えると、ここではパラメータは「日本の大学生のツイッターを利用している人の割合」です。
ここではパラメータの本当の値を知ることは現実的には不可能ですが、30%なり、40%なり固定された一つの値が存在します。
さて、この例ではサンプルサイズは100でしたので、100人の大学生を抽出して、彼ら彼女らにツイッターをやっているかのアンケートをとりました。
仮にその100人のうちの45人がツイッターをやっていると答えたとしましょう。すると統計量は45/100で「45%」ということになります。
このサンプルにおいては、統計量は45%でしたが、もし別のサイズ100のサンプルを抽出した場合には、その割合は必ずしも45%になるとは限りません。新しいサンプルのうち50人がツイッターをやっているかもしれませんし、30人しかやっていないかもしれません。
つまり、この統計量である45%の値は、別のサンプルを抽出すると変動するわけです。そしてこの値は実際に、サンプルを抽出してみて、その割合を計測して見るまではどんな値がでるか分かりません。
そのため、統計量は確率変数であると言えます。確率変数については「確率変数とは何か?」で解説しています。
このように、推計統計学においては、母集団のパラメータを推測するために、母集団からサンプルを抽出して、統計量を計算し、統計量をもとにパラメータに対する推定や検定を行うのです。
練習問題
1、日本人の成人男性の平均身長を推定するために、300人の成人男性を抽出したところ、その300人の平均身長は172.3cmでした。ここで母集団、標本(サンプル)、パラメータ、統計量はそれぞれ何でしょうか?
2、ある研究機関が日本の夫婦間のIQに相関関係があるかについてのリサーチをするため、50組の夫婦を抽出したところその50組の夫婦におけるIQの相関係数は0.78だったとします。(これは筆者がテキトウに作ったデータです。)ここで母集団、標本(サンプル)、パラメータ、統計量はそれぞれ何でしょうか?
練習問題回答
1、回答
母集団:日本人の成人男性全員
標本(サンプル):抽出された300人の成人男性
パラメータ:日本人の成人男性全員の平均身長
統計量:172.3cm
2、回答
母集団:日本のすべての夫婦
標本(サンプル):抽出された50組の夫婦
パラメータ:日本の全夫婦における夫婦間のIQの相関係数
統計量:0.78