Pythonで統計解析を行う際には、データをデータフレームで管理できる状態にすると大変便利です。
まず以下のように必要なライブラリをインポートしましょう。
pandasというライブラリを利用して、データフレームを操ることができます。
# Pythonでデータフレームを扱う(panda package) import pandas as pd
まずは以下のように簡単なデータフレームを作って見ましょう。
mydata = pd.DataFrame([list(range(1, 7)), #1から6の番号を振る ["A","A","A","B","O","O"]]) #血液型
上記のコードで以下のデータフレームができます。
0 | 1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | 5 | 6 |
1 | A | A | A | B | O | O |
確変数をそれぞれ縦列で表したいので、このデータフレームを90度転置させます。
そのためにはコードの最後に「.T」を追加します。
mydata = pd.DataFrame([list(range(1, 7)), ["A","A","A","B","O","O"]]).T # .Tによりデータを転置
これで以下のように1列目が番号、2列目が血液型となりました。
0 | 1 | |
---|---|---|
0 | 1 | A |
1 | 2 | A |
2 | 3 | A |
3 | 4 | B |
4 | 5 | O |
5 | 6 | O |
ここに列名を追加していきます。
mydata.columns = ["番号","class","score1","score2"] #カラム名(列名)を付ける
すると以下のようにカラム名(列名)がデータフレームに追加されます。
番号 | 血液型 | |
---|---|---|
0 | 1 | A |
1 | 2 | A |
2 | 3 | A |
3 | 4 | B |
4 | 5 | O |
5 | 6 | O |
データフレームのサイズが知りたい時にはshape関数を利用します。
mydata.shape
>>>mydata.shape
(6, 2)
このように横の行は6行、縦列は2列あることがわかります。
※この記事を書くのに以下のページを参照しました。
pandasライブラリについて:
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html
データフレームのHTML出力について:
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_html.html