python
でのデータ処理についてまとめました。
目次
pandasを使った前処理
よく使う基本的な使い方
pythonのライブラリ「pandas」を使って、様々なcsvやExcelなど様々なデータソースを処理することが可能です。
最初に覚えておけば間違いない基本的な使い方をまとめました。
- Pandasのインストール
- データの読み込み
- CSVファイルの読み込み—read_csv( )
- データの表示
- 最初の〇〇行表示—df.head( )
- 行数の確認—len(df)
- 行・列の確認—df.shape
- カラム名の確認—df.columns
- 欠損値の確認—df.info()
- 統計量の確認—df.describe( )
- 分布量の確認—df.value_counts()
- データの結合
- 縦に結合(行の追加)—df.concat()
- 横に結合(列の追加)—df.merge()
これが分かれば、データの状況が簡単に確認できるようになります!
関連記事


【pandas】基本的な使い方【読み込み・表示・結合】
Pythonで機械学習やデータ分析で活用されるライブラリとして「Pandas」が有名です。 機械学習の分野だけではなく、日常的に行っているExcelやCSVでの処理を自動化できま…
データフレームの絞り込み
データフレームの絞り込み方法は二種類あります。
DataFrame[ DataFrame[' column '] == x ]
DataFrame.query('column == "str" ')
この二つを使いこなせるようになると、データフレームの抽出は完璧です!
関連記事


【pandas】データフレームの行をdf[bool]・queryで絞り込む
pandas.DataFrame操作では頻出のデータフレームの絞り込み。 やり方が沢山あってよく分からないいざ使うときに忘れがち この記事を読めば基本的な絞り込み方法をマスタ…
外れ値を確認・除去する
データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。
データの分布を複数のグラフで確認し、df.quantile()
を用いて外れ値を除去します。
関連記事


【pandas】外れ値を確認・除去する方法【df.quantile()】
データ分析や機械学習では、精度を上げるために外れ値などを除去し、適切なデータセットにすることが重要です。 今回は、外れ値を確認し除去する方法をご紹介いたします…
データの重複処理
データフレームから重複した行を確認して、抽出・削除したい場合には
df.duplicated()
df.drop_duplicates()
が用いられます。
関連記事


【pandas】データフレームの重複した行の抽出・削除を行う方法
データを分析する際の前処理として、重複行の確認・削除は重要です。pandasでよく使われる df.duplicated()df.drop_duplicates()df.reset_index() それぞれの関数につい…
データの結合
異なるデータフレームを結合する場合にはpd.merge
関数を使います。
SQLでの内部結合・外部結合のような機能で、キーとなるカラムを指定して結合できます。
関連記事


【pandas】異なるデータを結合するpd.merge関数の使い方
pd.merge()関数は、2つのデータフレームからキーを指定し結合するときに使われます。SQLのテーブル結合のようなもので、例えば メールアドレスをキーとして顧客情報を結…
グループ化
pandasのgroupby
は同じ値を持つデータをまとめることができます。
データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数です。
関連記事


【pandas】groupbyでデータフレームをまとめる方法
pandasのgroupbyは同じ値を持つデータをまとめることができます。 データをまとめる用途以外にもグループごとに処理を行ったり、グラフ作成など重要な関数となりますの…
ピボットテーブル
ピボットテーブルはExcelと同様に、大量のデータをもとにさまざまな集計を行ったり、分析したりできる機能です。
データフレームの中からデータを切り出して分析が可能です。
関連記事


【pandas】ピボットテーブルの使い方【pivot・pivot_table】
Excelなどでよく使われるピボットテーブル。それをpandasのデータフレームで使う場合には DataFrame.pivot()DataFrame.pivot_table() の2種類があります。今回はピボッ…
データフレームからデータを出力
- 加工したデータフレームを使ってcsvやExcel出力をしたい
- Excelファイルに、複数のシートに分けて出力したい
処理したデータを出力するのはよくありますよね。
特に複数のデータフレームを別シートでExcelに出力できるのは便利でした。
関連記事


【pandas】データフレームをCSVやExcelなどで出力する方法
pandasではデータフレームとして読み込んだデータを複数の形式で出力することができます。 今回は、CSVやExcelなどで出力する方法をご紹介いたします。 この記事におす…
データの可視化
matplotlibでの可視化
データフレームでの作成
関連記事


【matplotlib】データフレームのグラフ作成方法と主な種類
matplotlibにはx軸・y軸に値を渡してやる方法もありますが、今回はpandasのデータフレームからグラフ生成の方法をご紹介します。 この記事で分かること データフレーム…
タイトル追加・凡例などの装飾方法
関連記事


【matplotlib】グラフの装飾やスタイルの変更方法【まとめ】
matplotlibを使っていると、細かい関数をよく忘れませんか?私はよく忘れてしまいそのたびに調べてしまうので、グラフで使う基本操作をまとめてみました。 この記事で分…
seabornでの可視化
関連記事


【seaborn】グラフの作成方法と主な使い方【まとめ】
グラフ作成には「matplotlib」と「seaborn」の二つがありますが、よく混合してしまうのでseabornについてまとめてみました。 折れ線グラフ棒グラフ散布図散布図行列箱ひ…
機械学習・データ処理を学ぶのにおすすめの教材
じっくり書籍で学習するなら!
¥2,090 (2022/02/20 08:45時点 | Amazon調べ)

動画で学習するなら!
【世界で37万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜
機械学習・ディープラーニング・人工知能に関するビジネス上の課題を、回帰分析・ニューラルネットワーク・K平均法等を使って解いていきます。python、jupyter、numpy、pandas、tensorflow等のスキルも身に付きます。
【キカガク流】人工知能・機械学習 脱ブラックボックス講座 – 初級編 –
1000人以上が受講している(株)キカガクの『脱ブラックボックスセミナー』が遂に登場!機械学習の参考書を「閉じてしまった人」への再入門に最適な講座です。微分・線形代数といった数学の基礎からPythonでの実装まで短時間で習得しましょう。
【キカガク流】人工知能・機械学習 脱ブラックボックス講座 – 中級編 –
日本語トップコースである【キカガク流】脱ブラックボックス講座の中級編が遂に登場!「キカガクの知識は現場で使える!」そんな講座を目指しました。微分・線形代数といった数学の基礎からPythonでの実装まで短時間で習得しましょう。
本気で取り組むならまずは相談!
自走できるAI人材になるための6ヶ月長期コース【キカガク】
(日本ディープラーニング協会)E資格認定講座!
これまでの受講者数30,000人以上! ・AI人材となり市場価値を高めたい方へ!
コメント