【データの前処理・可視化】Pythonでのデータ処理まとめ
当ページのリンクには広告が含まれています。

python
でのデータ処理についてまとめました。
目次
pandasを使った前処理
よく使う基本的な使い方
pythonのライブラリ「pandas」を使って、様々なcsvやExcelなど様々なデータソースを処理することが可能です。
最初に覚えておけば間違いない基本的な使い方をまとめました。
- Pandasのインストール
- データの読み込み
- CSVファイルの読み込み—read_csv( )
- データの表示
- 最初の〇〇行表示—df.head( )
- 行数の確認—len(df)
- 行・列の確認—df.shape
- カラム名の確認—df.columns
- 欠損値の確認—df.info()
- 統計量の確認—df.describe( )
- 分布量の確認—df.value_counts()
- データの結合
- 縦に結合(行の追加)—df.concat()
- 横に結合(列の追加)—df.merge()
これが分かれば、データの状況が簡単に確認できるようになります!
関連記事


【pandas】基本的な使い方【読み込み・表示・結合】
Pythonで機械学習やデータ分析で活用されるライブラリとして「Pandas」が有名です。 機械学習の分野だけではなく、日常的に行っているExcelやCSVでの処理を自動化できま…
データフレームの絞り込み
データフレームの絞り込み方法は二種類あります。
DataFrame[ DataFrame[' column '] == x ]
DataFrame.query('column == "str" ')
この二つを使いこなせるようになると、データフレームの抽出は完璧です!
関連記事


【pandas】データフレームの行をdf[bool]・queryで絞り込む
pandas.DataFrame操作では頻出のデータフレームの絞り込み。 やり方が沢山あってよく分からないいざ使うときに忘れがち この記事を読めば基本的な絞り込み方法をマスタ…
外れ値を確認・除去する
データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。
データの分布を複数のグラフで確認し、df.quantile()
を用いて外れ値を除去します。
関連記事


【pandas】外れ値を確認・除去する方法【df.quantile()】
データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。 今回は、外れ値を確認し除去する方法をご紹介いたします…
データの重複処理
データフレームから重複した行を確認して、抽出・削除したい場合には
df.duplicated()
df.drop_duplicates()
が用いられます。
関連記事


【pandas】データフレームの重複した行の抽出・削除を行う方法
データを分析する際の前処理として、重複行の確認・削除は重要です。pandasでよく使われる df.duplicated() df.drop_duplicates() df.reset_index() それぞれの関数につ…
データの結合
異なるデータフレームを結合する場合にはpd.merge
関数を使います。
SQLでの内部結合・外部結合のような機能で、キーとなるカラムを指定して結合できます。
関連記事


【pandas】異なるデータを結合するpd.merge関数の使い方
pd.merge()関数は、2つのデータフレームからキーを指定し結合するときに使われます。SQLのテーブル結合のようなもので、例えば メールアドレスをキーとして顧客情報を結…
グループ化
pandasのgroupby
は同じ値を持つデータをまとめることができます。
データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数です。
関連記事


【pandas】groupbyでデータフレームをまとめる方法
pandasのgroupbyは同じ値を持つデータをまとめることができます。 データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数となりますの…
ピボットテーブル
ピボットテーブルはExcelと同様に、大量のデータをもとにさまざまな集計を行ったり、分析したりできる機能です。
データフレームの中からデータを切り出して分析が可能です。
関連記事


【pandas】ピボットテーブルの使い方【pivot・pivot_table】
Excelなどでよく使われるピボットテーブル。それをpandasのデータフレームで使う場合には DataFrame.pivot()DataFrame.pivot_table() の2種類があります。今回はピボッ…
データフレームからデータを出力
- 加工したデータフレームを使ってcsvやExcel出力をしたい
- Excelファイルに、複数のシートに分けて出力したい
処理したデータを出力するのはよくありますよね。
特に複数のデータフレームを別シートでExcelに出力できるのは便利でした。
関連記事


【pandas】データフレームをCSVやExcelなどで出力する方法
pandasではデータフレームとして読み込んだデータを複数の形式で出力することができます。 今回は、CSVやExcelなどで出力する方法をご紹介いたします。 この記事におす…
データの可視化
matplotlibでの可視化
データフレームでの作成
関連記事


【matplotlib】データフレームのグラフ作成方法と主な種類
matplotlibにはx軸・y軸に値を渡してやる方法もありますが、今回はpandasのデータフレームからグラフ生成の方法をご紹介します。 この記事で分かること データフレーム…
タイトル追加・凡例などの装飾方法
関連記事


【matplotlib】グラフの装飾やスタイルの変更方法【まとめ】
matplotlibを使っていると、細かい関数をよく忘れませんか?私はよく忘れてしまいそのたびに調べてしまうので、グラフで使う基本操作をまとめてみました。 この記事で分…
seabornでの可視化
関連記事


【seaborn】グラフの作成方法と主な使い方【まとめ】
グラフ作成には「matplotlib」と「seaborn」の二つがありますが、よく混合してしまうのでseabornについてまとめてみました。 折れ線グラフ棒グラフ散布図散布図行列箱ひ…
機械学習・データ処理を学ぶのにおすすめの教材
じっくり書籍で学習するなら!
¥2,090 (2022/02/20 08:45時点 | Amazon調べ)

コメント