今回は「統計量」「検定統計量」とは何か?また、「統計量の標本分布」、「標準誤差」とは何かを解説していきます。
【目次】
統計量、検定統計量とは何か?
統計量の標本分布とは何か?
標準誤差とは何か?
まとめ
統計量、検定統計量とは何か?
統計量とは標本を要約する値です。
「統計学での重要用語「母集団」「標本(サンプル)」「パラメータ(母数)」「統計量」」のページでも説明をしていますが、
推計統計学の目的は、持っている標本データから、母集団に関する結論付けをすることです。
仮に、日本の成人男性の平均身長を推定するために、標本として100人の日本人の成人男性を抽出したとします。
この場合、統計量はその100人の男性の平均身長ということになります。
検定統計量とは統計学的仮説検定に利用される統計量のことです。
統計学的仮説検定は、得られたデータ(サンプル、標本)から母集団に関して結論付けをするための手法です。詳しくは「統計的仮説検定、推定、信頼区間とは何か?(専門用語を使わない編)」を参照してください。
例えば、統計学的仮説検定を利用して、日本人の成人男性の平均身長が170cm以上であると結論付けることができるか、検定をしたいとしましょう。
仮説検定において研究者が結論付けたい仮説のことを「代替仮説(Alternative Hypothesis)」と呼び、またはと書きます。
ここでは、
ということになります。この代替仮説が正しいことを示すために「帰無仮説」()を設定し、この帰無仮説が間違っていることを示すことにより、代替仮説が正しいことを結論付けます。
ここでは
となります。
さて、この仮説を検定するために、統計量を少し加工して検定統計量を作ります。
このケースでは、母集団(日本の成人男性全員)の平均身長について結論を導きたいので、
という数式を利用して、統計量を加工し検定統計量を算出します。
※ 「標準誤差」とは、統計量の標準偏差のことですが、詳しくはこのページ内の「標準誤差とは何か?」セクションで解説します。
※ 検定統計量の算出の公式は、利用する検定によって変わります。ここで紹介をした公式は、母集団の平均値を検定する際に利用されるものです。
このように算出された検定統計量がある一定の大きさであれば、今回の検定において帰無仮説を棄却し、「日本人成人男性全員の平均身長は170cmより高い」という検定仮説が正しいと結論付けることができるわけです。
統計量の標本分布とは何か?
統計量の標本分布とは統計量の分布のことです。
解説します。
まず、統計量は確率変数です。
「確率変数とは何か?」のページで詳しく説明をした通り、確率変数とは「実際に試行、観測を行うまで何の結果が得られるか分からない変数」のことです。
前述のように、日本の成人男性の平均身長を推定するために、標本として100人の日本人の成人男性を抽出したとします。
この100人の平均身長を計算して、例えば統計量が172.5cmだったとしましょう。
次に、また別の標本(100人の日本人成人男性)を抽出したとします。この2つ目の標本から得られる統計量が171cmだったとしましょう。
このように、標本を抽出するごとに、統計量にはばらつきがあります。つまり「統計量は分布する」ということです。この分布を「統計量の標本分布」(Sampling Distribution)と呼びます。
標準誤差とは何か?
標準誤差とは統計量の標本分布の標準偏差のことです。
上述のように統計量は毎回、標本を抽出するたびにばらつきがあります。
例えば、サイズ100の標本を10000個抽出したとします。10000個の標本からそれぞれの統計量を計算すると、以下のようになったとしましょう。
標本1 | 172.5cm |
標本2 | 171.0cm |
・・・ | ・・・ |
標本10000 | 170.0cm |
この10000個の統計量の標準偏差を計算すると、大体の標準誤差がわかります。(正確には公式を用いて算出することができます。)
まとめ
・統計量の分布を「標本分布」と呼び、その標準偏差を「標準誤差」と呼ぶ。