【データの前処理・可視化】Pythonでのデータ処理まとめ

目次

pandasを使った前処理

よく使う基本的な使い方

pythonのライブラリ「pandas」を使って、様々なcsvやExcelなど様々なデータソースを処理することが可能です。

最初に覚えておけば間違いない基本的な使い方をまとめました。

  1. Pandasのインストール
  2. データの読み込み
    • CSVファイルの読み込み—read_csv( )
  3. データの表示
    • 最初の〇〇行表示—df.head( )
    • 行数の確認—len(df)
    • 行・列の確認—df.shape
    • カラム名の確認—df.columns
    • 欠損値の確認—df.info()
    • 統計量の確認—df.describe( )
    • 分布量の確認—df.value_counts()
  4. データの結合
    • 縦に結合(行の追加)—df.concat()
    • 横に結合(列の追加)—df.merge()

これが分かれば、データの状況が簡単に確認できるようになります!

データフレームの絞り込み

データフレームの絞り込み方法は二種類あります。

  1. DataFrame[ DataFrame[' column '] == x ]
  2. DataFrame.query('column == "str" ')

この二つを使いこなせるようになると、データフレームの抽出は完璧です!

外れ値を確認・除去する

データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です

データの分布を複数のグラフで確認し、df.quantile()を用いて外れ値を除去します。

データの重複処理

データフレームから重複した行を確認して、抽出・削除したい場合には

  • df.duplicated()
  • df.drop_duplicates()

が用いられます。

データの結合

異なるデータフレームを結合する場合にはpd.merge関数を使います。

SQLでの内部結合・外部結合のような機能で、キーとなるカラムを指定して結合できます。

グループ化

pandasのgroupby同じ値を持つデータをまとめることができます

データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数です。

ピボットテーブル

ピボットテーブルはExcelと同様に、大量のデータをもとにさまざまな集計を行ったり、分析したりできる機能です。

データフレームの中からデータを切り出して分析が可能です

データフレームからデータを出力

  • 加工したデータフレームを使ってcsvやExcel出力をしたい
  • Excelファイルに、複数のシートに分けて出力したい

処理したデータを出力するのはよくありますよね。

特に複数のデータフレームを別シートでExcelに出力できるのは便利でした。

データの可視化

matplotlibでの可視化

データフレームでの作成

タイトル追加・凡例などの装飾方法

seabornでの可視化

機械学習・データ処理を学ぶのにおすすめの教材

動画で学習するなら!

本気で取り組むならまずは相談!

じっくり書籍で学習するなら!

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!

コメント

コメントする

目次
閉じる