学習教材
「Pythonによるあたらしいデータ分析の教科書」の第4章2項のpandas
学習まとめ
第4章2項の「pandas」は42ページありました。機械学習の要点となるデータの統計情報の確認と、データの前処理となる欠損値処理やOne-Hotエンコーディングの記載があります。
統計局からデータを取得し、データの読み書き・抽出・整形を試してみました。
統計局ホームページ (stat.go.jp)
第4章2項 | pandas |
学習時間 | 3時間 |
学習スタイル | JupyterNotebookでトレース |
学習した内容 | pandasの概要、データの抽出・読み・書き・整形・連結、時系列データ、欠損処理 |
Seriesについての記載はありませんでした。Seriesは1次元配列に相当するので、わざわざSeriesを使用する場面は少ないのですかね。Seriesについては、本書だけでなくWebサイトやPython入門書を参照するのがよいと思います。
欠損処理のfillnaメソッドで、覚えておく使い方
fillnaメソッドの引数によって、欠損している箇所の補完方法を選択することができる。
1つ手前の値で補完する
df_ffill = df.fillna(method='ffill')
1つ後の値で補完する
df_bfill = df.fillna(method='bfill')
平均値で補完する
df_mean = df.fillna(df.mean())
中央値で補完する
df_median = df.fillna(df.median())
最頻値で補完する
df_mode = df.fillna(df.mode().iloc[0, :])
次の学習
「Pythonによるあたらしいデータ分析の教科書」の第4章3項のMatplotlib
コメント