単純無作為抽出(Simple Random Sampling)とは何か？標本（サンプル）の抽出方法。

統計的仮説検定や推定を行うにあたり、単純無作為抽出（シンプルランダムサンプリング）を行うことが非常に重要です。

推計統計学では、母集団のパラメータに関する結論を導くために、母集団から標本（サンプル）を抽出し、標本の統計量を求めることにより、パラメータに関する推測をすることは、前の「統計的仮説検定、推定、信頼区間とは何か？（専門用語を使わない編）」「統計学での重要用語「母集団」「標本」「パラメータ」「統計量」」で学習しました。

その際、抽出された標本が偏ったものであった場合、パラメータに対する推定や検定を正しく行うことができません。つまり、標本は母集団の性質を上手にあらわすものでなければいけないわけです。そのために利用する標本抽出の手法を単純無作為抽出と呼びます。

【目次】
単純無作為抽出（Simple Random Sampling）の定義
例と注意点
単純無作為抽出の実際

単純無作為抽出（Simple Random Sampling）の定義

母集団のサイズをNとし、そこからサイズnのサンプルを抽出するとします。
単純無作為抽出とはすべてのサンプルサイズnの標本が同じ確率で起こり得る抽出方法です。

定義だけを聞くと若干わかり辛いのですが、

要するに、サイズNの母集団の全員（または全部）にそれぞれ１〜Nまでの番号を振って、１〜Nまでの番号の中で重複がないようにランダムにn個の番号を発生させ、選ばれた番号の人たち（または個体）を抽出する手法です。

※ ここでいう「ランダム」とは一様分布に従うことを意味します。

こうすることにより、サンプルが偏っていたり、推定や検定においてバイアスがかかる状態を防ぐことができます。

例と注意点

それでは、日本人の18歳以上の人の平均年収に関して推定をしたいとします。

まず、常に頭に置いていただきたきたいのが、

「この推定において母集団は何か？」

ということです。

この場合の母集団は「日本人の18歳以上の人」ということになります。
この場合、大学生から、専業主婦から、リタイアされたお年寄りまで入るということになります。

※ 今回は学習のためにこの例を利用しますが、一口に「日本人の18歳以上の人」と言っても、このように性質の違う様々なグループが混在しています。そのため、「日本人の18歳以上の人の平均年収」を推定すること自体にそれほど意味がないかもしれません。しかしながら、多くのニュースなどで見られる統計において、このようにあまり意味がない平均値に目がいっていることも確かです。

たまにマイナビやリクルートなどが、登録しているサラリーマンの平均年収を算出している記事を見かけますが、これは「リクナビ、マイナビに登録しているサラリーマンの平均年収」であって、「日本人の18歳以上の人の平均年収」を推定するのには役立ちません。

統計学的に正しいサンプルの抽出方法（単純無作為抽出）を行うためには、まずは、母集団の構成員全員、この場合は「日本人の18歳以上の人」全員に１から順番に番号を振ります。

日本の18歳以上の人口は2018年現在、約１億760万人ですから、母集団のサイズはN=107,600,000です。ですので、母集団の一人一人に1から１億760万までの数字を割り振ります。

※　上記数字は総務省ホームページより。（http://www.stat.go.jp/data/nihon/02.htm）

さて、ここでは100人を抽出したいとしましょう。つまりサンプルサイズn=100ということですね。

ですので、１から１億760万までの間で、ランダム且つだぶりがないように、100個の数を発生させます。

そして、発生した番号を割り振られた人たち100人を抽出します。

これが、単純無作為抽出です。

この手順を踏むことにより、サンプルの偏りを排除することができるので、バイアスのない推定ができるのです。

単純無作為抽出の実際

さて、上に述べた手法でのサンプルの抽出が統計学的に正しい手法ですが、お気付きの通り、実際問題として１億人以上いる18歳以上の日本人に番号を割り当ててランダムに抽出することはほぼ不可能です。（マイナンバーを利用して主導で行えば理論的には可能ですが。）

そのため、通常の世論調査や各種調査、研究においては、できる限りサンプルの偏りがないように努力をするものの、完全に偏り、バイアスを取り除くことは不可能です。

また、ひどいものになると、「何が母集団なのか？」を特に意識せずに何となく標本抽出を行っている例もあります。

例えば、年収の国際比較の調査などで、母集団は各国の成人全員なのか？それともフルタイムの従業員なのか？など、細かいことを定義せずに適当なサンプルの平均をとって比べていることがありますね。

みなさんがこういった調査や研究の結果を見る際には、

・母集団は何か？
・サンプルは母集団をできる限り代表するように抽出されているか？

このポイントを押さえていただきたいと思います。

MENU

単純無作為抽出（Simple Random Sampling）の定義

例と注意点

単純無作為抽出の実際

統計学の基礎

スポンサー募集中。

更新・勉強会などの情報を受け取る。

理系の就職・職業訓練