社会人が統計学の基礎を学び、実務で活かす

Pythonで散布図を描く(Pythonによる統計学入門)

スポンサーサーチ

統計学やデータ分析において「データを可視化」することが非常に重要です。

例えば回帰分析は多くの場合、説明変数と応答変数の間の「直線的」な関係を
モデリングしますが、

散布図を用いて変数の関係を可視化することで、変数の間に

「直線的な関係があるのか?」それとも
「曲線的な関係があるのか?」

といったことを視覚的に理解できます。

今回は、Pythonを用いて散布図を描く方法をご紹介します。
以下のようにまずは必要なライブラリをインポートしましょう。

sklearn.datasetsを用いて、ボストンの住宅価格のデータを利用してみます。

なお、データと各変数の説明は(英語ですが)以下のページに載せられています。
http://scikit-learn.org/stable/datasets/index.html

まずは、以下のようにデータをデータフレームに収めます。

大きめのデータセットなので、初めの5行を見てみましょう。
>>>mydata.head()

なおデータフレームの大きさはshapeコマンドで確認できます。

>>> mydata.shape
(506, 13)

これにより、全部で横の行が506行、縦列が13列あることが分かります。

データの内容を把握するために、どんな変数があるのか一通り確認しましょう。

>>> mydata.columns.values.tolist()
[‘CRIM’,
‘ZN’,
‘INDUS’,
‘CHAS’,
‘NOX’,
‘RM’,
‘AGE’,
‘DIS’,
‘RAD’,
‘TAX’,
‘PTRATIO’,
‘B’,
‘LSTAT’]

それでは早速、散布図を描いてみます。
Pandasライブラリを利用して変数AGEとCRIMEの関係を見てみましょう。

次にmatplotlib.pyplotライブラリを利用して、
データフレームから変数の列を抜き出して散布図を描いてみます。

このようにラベルとタイトルがついた散布図を作成することができました。

※この記事を書くのに以下のページを参照しました。

pandasライブラリ
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.scatter.html

matplotlib.pyplotライブラリ
https://matplotlib.org/api/_as_gen/matplotlib.pyplot.title.html


プログラミングとソフトウェア

スポンサー募集中。

統計ドットリンクでは広告出稿をご希望のスポンサー様を募集しております。ページビューなどは、「お問い合わせ」からご連絡ください。

更新・勉強会などの情報を受け取る。

以下からFacebookページをフォローもしくは、メールマガジンへの登録をすると、更新情報、勉強会、講習会、交流会の案内など各種情報を受け取ることができます。

↑こちらからFacebookページをフォロー。
 

メルマガ登録はこちら

理系の就職・職業訓練

統計ドットリンクでは、理系の大学生、大学院生、第二新卒の就職や転職を応援しています。職業訓練、求人やエージェントなどの必要な情報を選別し、紹介しています。 就職、職業訓練の情報を確認する。
PAGETOP
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.