3日目:pandasの基礎学習

Python

学習教材

「Pythonによるあたらしいデータ分析の教科書」の第4章2項のpandas

学習まとめ

第4章2項の「pandas」は42ページありました。機械学習の要点となるデータの統計情報の確認と、データの前処理となる欠損値処理やOne-Hotエンコーディングの記載があります。

統計局からデータを取得し、データの読み書き・抽出・整形を試してみました。
統計局ホームページ (stat.go.jp)

第4章2項 pandas
学習時間 3時間
学習スタイル JupyterNotebookでトレース
学習した内容 pandasの概要、データの抽出・読み・書き・整形・連結、時系列データ、欠損処理

Seriesについての記載はありませんでした。Seriesは1次元配列に相当するので、わざわざSeriesを使用する場面は少ないのですかね。Seriesについては、本書だけでなくWebサイトやPython入門書を参照するのがよいと思います。

欠損処理のfillnaメソッドで、覚えておく使い方

fillnaメソッドの引数によって、欠損している箇所の補完方法を選択することができる。

1つ手前の値で補完する

df_ffill = df.fillna(method='ffill')

1つ後の値で補完する

df_bfill = df.fillna(method='bfill')

平均値で補完する

df_mean = df.fillna(df.mean())

中央値で補完する

df_median = df.fillna(df.median())

最頻値で補完する

df_mode = df.fillna(df.mode().iloc[0, :])

次の学習

「Pythonによるあたらしいデータ分析の教科書」の第4章3項のMatplotlib

コメント

タイトルとURLをコピーしました