MENU

毎日をちょっと楽しく快適にするライフハック大全

【データの前処理・可視化】Pythonでのデータ処理まとめ

2021-03-222022-05-05

当ページのリンクには広告が含まれています。

pythonでのデータ処理についてまとめました。

サンプルコード類

目次

pandasを使った前処理

よく使う基本的な使い方

pythonのライブラリ「pandas」を使って、様々なcsvやExcelなど様々なデータソースを処理することが可能です。

最初に覚えておけば間違いない基本的な使い方をまとめました。

Pandasのインストール
データの読み込み
- CSVファイルの読み込み—read_csv( )
データの表示
- 最初の〇〇行表示—df.head( )
- 行数の確認—len(df)
- 行・列の確認—df.shape
- カラム名の確認—df.columns
- 欠損値の確認—df.info()
- 統計量の確認—df.describe( )
- 分布量の確認—df.value_counts()
データの結合
- 縦に結合(行の追加)—df.concat()
- 横に結合(列の追加)—df.merge()

これが分かれば、データの状況が簡単に確認できるようになります！

関連記事

【pandas】基本的な使い方【読み込み・表示・結合】 Pythonで機械学習やデータ分析で活用されるライブラリとして「Pandas」が有名です。機械学習の分野だけではなく、日常的に行っているExcelやCSVでの処理を自動化できま…

データフレームの絞り込み

データフレームの絞り込み方法は二種類あります。

DataFrame[ DataFrame[' column '] == x ]
DataFrame.query('column == "str" ')

この二つを使いこなせるようになると、データフレームの抽出は完璧です！

関連記事

【pandas】データフレームの行をdf[bool]・queryで絞り込む pandas.DataFrame操作では頻出のデータフレームの絞り込み。やり方が沢山あってよく分からないいざ使うときに忘れがちこの記事を読めば基本的な絞り込み方法をマスタ…

外れ値を確認・除去する

データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。

データの分布を複数のグラフで確認し、df.quantile()を用いて外れ値を除去します。

関連記事

【pandas】外れ値を確認・除去する方法【df.quantile()】データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。今回は、外れ値を確認し除去する方法をご紹介いたします…

データの重複処理

データフレームから重複した行を確認して、抽出・削除したい場合には

df.duplicated()
df.drop_duplicates()

が用いられます。

関連記事

【pandas】データフレームの重複した行の抽出・削除を行う方法データを分析する際の前処理として、重複行の確認・削除は重要です。pandasでよく使われる df.duplicated() df.drop_duplicates() df.reset_index() それぞれの関数につ…

データの結合

異なるデータフレームを結合する場合にはpd.merge関数を使います。

SQLでの内部結合・外部結合のような機能で、キーとなるカラムを指定して結合できます。

関連記事

【pandas】異なるデータを結合するpd.merge関数の使い方 pd.merge()関数は、2つのデータフレームからキーを指定し結合するときに使われます。SQLのテーブル結合のようなもので、例えばメールアドレスをキーとして顧客情報を結…

グループ化

pandasのgroupbyは同じ値を持つデータをまとめることができます。

データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数です。

関連記事

【pandas】groupbyでデータフレームをまとめる方法 pandasのgroupbyは同じ値を持つデータをまとめることができます。データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数となりますの…

ピボットテーブル

ピボットテーブルはExcelと同様に、大量のデータをもとにさまざまな集計を行ったり、分析したりできる機能です。

データフレームの中からデータを切り出して分析が可能です。

関連記事

【pandas】ピボットテーブルの使い方【pivot・pivot_table】 Excelなどでよく使われるピボットテーブル。それをpandasのデータフレームで使う場合には DataFrame.pivot()DataFrame.pivot_table() の２種類があります。今回はピボッ…

データフレームからデータを出力

加工したデータフレームを使ってcsvやExcel出力をしたい
Excelファイルに、複数のシートに分けて出力したい

処理したデータを出力するのはよくありますよね。

特に複数のデータフレームを別シートでExcelに出力できるのは便利でした。

関連記事

【pandas】データフレームをCSVやExcelなどで出力する方法 pandasではデータフレームとして読み込んだデータを複数の形式で出力することができます。今回は、CSVやExcelなどで出力する方法をご紹介いたします。この記事におす…

データの可視化

matplotlibでの可視化

データフレームでの作成

関連記事

【matplotlib】データフレームのグラフ作成方法と主な種類 matplotlibにはx軸・y軸に値を渡してやる方法もありますが、今回はpandasのデータフレームからグラフ生成の方法をご紹介します。この記事で分かることデータフレーム…

タイトル追加・凡例などの装飾方法

関連記事

【matplotlib】グラフの装飾やスタイルの変更方法【まとめ】 matplotlibを使っていると、細かい関数をよく忘れませんか？私はよく忘れてしまいそのたびに調べてしまうので、グラフで使う基本操作をまとめてみました。この記事で分…

seabornでの可視化

関連記事

【seaborn】グラフの作成方法と主な使い方【まとめ】グラフ作成には「matplotlib」と「seaborn」の二つがありますが、よく混合してしまうのでseabornについてまとめてみました。折れ線グラフ棒グラフ散布図散布図行列箱ひ…

機械学習・データ処理を学ぶのにおすすめの教材

じっくり書籍で学習するなら！

Python実践データ分析100本ノック

¥2,499 （2025/06/08 03:50時点 | Amazon調べ）

Yahooショッピング

ポチップ

Python 実践データ加工/可視化 100本ノック

¥2,870 （2025/06/08 03:50時点 | Amazon調べ）

Yahooショッピング

ポチップ

Kaggleで勝つデータ分析の技術

¥3,608 （2025/06/09 17:29時点 | Amazon調べ）

Yahooショッピング

ポチップ

Pythonデータ分析／機械学習のための基本コーディング！ pandasライブラリ活用入門 impress top gearシリーズ

¥2,090 （2022/02/20 08:45時点 | Amazon調べ）

Yahooショッピング

ポチップ

URLをコピーしました！

コメント

コメントするコメントをキャンセル