Python:データ分析。「.T」を使った行と列の入れ替え

データ分析

Pythonを使ったデータ分析の方法を、もっと見ていきましょう。

まずは「pandas」を使って、CSVファイルの読み込みします。

今回使うデータは、農林水産省の食料自給率に関するデータです。

プログラミングを勉強したい!! データ分析に興味がある!!
そんなあなたへのおすすめ記事
無料体験あり、キャッシュバック有りプログラミングスクールおすすめはこちら

 

pandasでCSVデータ読み込み

さっそく以下のコードを実行して、データを読み込んでみましょう。

import pandas as pd
import numpy as np
df_total_food_self = pd.read_csv('food_selfsuficiency_total_2018.csv', encoding = 'cp932', header=0, index_col=3)
print(df_total_food_self)

あえて「print」で実行したので、表が見にくくなっています。

見やすいように、「display」で実行してみましょう。

display(df_total_food_self)

やっぱり見やすいですね。


次に、このDataFrameの中でいらない列を消してしまいましょう。

「表章項目コード」「表章項目」「自給率別コード」「/時間軸(年度時)」分析に直接必要ないので「.drop」を使って消します。

display(df_total_food_self.drop(['表章項目', '自給率別 コード', '/時間軸(年度次)','表章項目 コード' ], axis=1, inplace=True)

さらに「inplace=True」を使ってDataFrameを変更します。

結果は以下の通り。

display(df_total_food_self)

とてもスッキリしました。

「.T」を使った行と列の入れ替え

しかしこのままでは、まだ分析に使いずらいので「.T」を使い、行と列を入れ替えます。

display(df_total_food_self.T)

ちゃんと入れ替えできましたね。

入れ替えしたDataFrame ですが「inplace=」ではデータを固定できないので、新しくDataFrameとして定義します。

df_self=df_total_food_self.T
display(df_self)

次はデータタイプの調査です。

display(df_self.dtypes)

「.dtypes」を使ってデータタイプを調べますが「types」の最後のsを忘れることがあるので、気を付けましょう。
全てオブジェクトタイプなので「.astype」を使ってフロートタイプに変換します。

df_self = df_self.astype({'穀物自給率': float, '主食用穀物自給率': float, '供給熱量ベースの総合食料自給率': float, '生産額ベースの総合食料自給率': float})

結果を見てみましょう。

print(df_self.dtypes)

しっかり変換されています。

(参考…)の部分は、参考だったので今回は変換しませんでした。

matplotlibを使ったグラフの描写

ではいつものごとく、グラフを描いてみましょう。

from matplotlib import pyplot as plt
import pylab
import numpy as np
import matplotlib as mpl
mpl.rcParams['font.family'] = 'MS Gothic'
pylab.figure(figsize=(20, 10))
plt.xticks(rotation=90)
plt.title('日本の自給率(穀物自給率)', fontsize=18)
plt.xlabel("年度", fontsize=18)
plt.ylabel("自給率 (%)", fontsize=18)
plt.plot(df_self['穀物自給率'], label="穀物自給率", color="red")
plt.plot(df_self['主食用穀物自給率'], label="主食用穀物自給率", color="blue")
plt.plot(df_self['供給熱量ベースの総合食料自給率'], label="供給熱量ベースの総合食料自給率", color="green")
plt.plot(df_self['生産額ベースの総合食料自給率'], label="生産額ベースの総合食料自給率", color="orange")
plt.legend(prop={"family":"MS Gothic"})
plt.grid()
plt.show()

という感じで、自給率のグラフを描くことができました。

プログラミングを勉強したい!! データ分析に興味がある!!
そんなあなたへのおすすめ記事
無料体験あり、キャッシュバック有りプログラミングスクールおすすめはこちら

 

関連記事↓↓↓

データとは:Python で度数分布表からヒストグラムの作成をやってみた
最近よく聞く「データをもとに...。」「データ分析によると...。」「データサイエンス」などなど、データっていう言葉をよく聞きませんか? でもデータってなんとなくわかっているようで、深く考えてみるとよくわかっていない言葉ですよね。 ...
Python でデータ分析:DataFrameの整理とデータ型の変換
Python でCSVファイルを読みこんでみましたが、このままでは分析に使えないので、データの整形が必要になります。 csvデータ読み込みの記事はこちら↓↓↓ データの種類によって整形方法が変わりますが、今回のデータの場...

コメント

タイトルとURLをコピーしました