【目次】
t分布の定義と標準正規分布との関係
t分布の確率密度関数、期待値、分散
t分布を使った検定
t分布とは何か?標準正規分布との関係
t分布(ティー分布、t-distribution)とは、統計学的検定(t検定、相関関係の検定、線形回帰の検定など)によく利用される分布で、分布の形は標準正規分布によく似ています。
t分布は、標準正規分布に非常によく似ているのですが、
標準正規分布に比べて、t分布の方が少しだけ、
•ベル型の頂点の位置が低く、
•左右に広がる裾が厚い。
という特徴があります。

t分布は、自由度(じゆうど)と呼ばれるパラメータを持ち、自由度が大きくなるほど、
•ベル型の頂点の位置が高くなっていき、
•左右に広がる裾が薄くなっていきます。
そして、自由度が大きくなるにつれ、標準正規分布に近づいていきます。
つまり、t分布の自由度が十分に大きくなると、標準正規分布に収束します。
よく使われる基準としては、自由度が30以上のt分布は標準正規分布と同じとみなしてほぼ問題がない、というものがあります。

t分布の定義は以下のようになります。
n個の確率変数
この確率変数の平均を
、分散を
とし、
確率変数Tをと定義すると、
この確率変数Tは自由度のt分布に従う。
※標本分散に関しては「統計学の基礎」で詳しく解説します。
確率変数Tが自由度n-1のt分布に従うことを以下のように表記します。
例
日本人の成人男性の身長が平均値&mu=171、分散σ2=64、つまり標準偏差σ=8の正規分布に従うと仮定します。
つまり、日本人の成人男性をランダムに抽出したとき、その人の身長を確率変数をXとすると、
とします。
さて、この確率分布から3人を抽出し、それぞれの身長をとしましょう。
上記の定義のようにと
を求めるには
•
•
つまり、
•
とすると、確率変数は自由度n-1=2のt分布に従います。
実際にシュミレーションしてみます。
以下の手順を1000回繰り返します。
①平均値171、分散64の正規分布から3個の値をランダムに抽出する。
②抽出した3個の値からと
を算出し、それを用いてTを計算する。
これを1000回繰り返し、1000個のT(T1,T2,・・・,T1000としましょう。)のヒストグラムを描く。
そしてこのヒストグラムに自由度2のt分布を重ねてみます。
それでは、1回目。
[1] 165.99 172.47 164.31
上記のコードで3つの数字を正規分布から発生させました。
と
を計算すると、
上記よりの実現値
は
ということで1個目のTの実現値となりました。
それでは2回目!
[1] 163.82 172.48 183.70
、
なので、
2個目のTの実現値は0.41です。
同じように全部でTを1000個求めて、そのヒストグラムを作ります。
以下が、そのヒストグラム。

自由度2のt分布を重ねてみると以下のようになりますね。

このように確率分布Tは自由度n-1のt分布に従っているのが理解頂けると思います。
t分布の確率密度関数、期待値、分散
t分布の確率密度関数(pdf)、期待値、分散は以下の通りです。
確率変数Xが自由度pのt分布に従う時、つまり、
のとき、
•確率密度関数
(-∞<x<∞)
※自由度
※-∞<x<∞とは、xがマイナス無限大からプラス無限大までのすべての実数を取り得る、という意味です。
•期待値
•分散
t分布を使った検定
t分布は、母集団の平均値の統計学的検定や、相関係数の検定、回帰分析のパラメータの検定など、頻繁に利用される統計学的検定において、非常に多く利用される分布です。
詳しくは各検定手法について説明したページに譲りますが、簡単に例を挙げたいと思います。
例えば、日本人の正社員の平均年収が400万円以上あるかどうか、を統計学的検定によって結論付けたいとします。
仮に、10人をランダムに抽出して、その10人の平均年収を、その標本分散を
、また、母集団の本当の平均値を400万円と仮定すると、
は自由度9のt分布に従います。この性質を利用して、実際に得られたデータが、本当の平均年収を400万円だったと仮定した時、どれくらい起こる確率があるのか?を求め、検定の結論づけに利用します。
なお、統計学的検定の意味や各手法に関しては「統計学の基礎」のページで基本から解説します。