MENU

毎日をちょっと楽しく快適にするライフハック大全

【pandas】データフレームの重複した行の抽出・削除を行う方法

2020-12-272023-09-02

当ページのリンクには広告が含まれています。

データを分析する際の前処理として、重複行の確認・削除は重要です。pandasでよく使われる

df.duplicated()
df.drop_duplicates()
df.reset_index()

それぞれの関数についてまとめました。

この記事におすすめの人

重複を確認・削除したい
重複の抽出をしたい
インデックスを振りなおしたい

サンプルデータは下記のように作成しました。

import pandas as pd

df = pd.DataFrame({
    'prefecture': ['東京都', '東京都', '神奈川県', '北海道', '北海道'],
    'name': ['saki', 'saki', 'takeshi', 'toshi', 'kei'],
    'age': [10, 10, 42, 29, 29]
})
>>> df
        pre	name	age
0	東京都	saki	10
1	東京都	saki	10
2	神奈川県	takeshi	42
3	北海道	toshi	29
4	北海道	kei	29

あわせて読みたい

【データの前処理・可視化】Pythonでのデータ処理まとめ pythonでのデータ処理についてまとめました。サンプルコード類 pandasを使った前処理よく使う基本的な使い方 pythonのライブラリ「pandas」を使って、様々なcsvやExce…

この記事のサンプルコード

目次

重複を抽出する—df.duplicated()

DataFrame.duplicated(subset=None, keep=’first’)

返り値：各行のTrue・False

引数	意味
subset	初期値無し。列を指定できる。特定列の重複のみを選択する場合は指定する。
keep	初期値=`'first'` `first`：最初の値以外は重複(True)として扱う `last`：最後の値以外は重複(True)として扱う `False`：重複する値全てを重複として扱う

完全に重複した行を確認する

引数を指定しない場合は、完全重複した行で最初の値以外は重複(True)となります。

>>> df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

1.2行目が完全重複なので、2行目がTrueとなりました。

特定列の重複を確認する—subset

完全重複でもなく、特定の列のみの重複を確認する場合はsubset=[column]で指定します。

>>> df.duplicated(subset=['pre'])

0    False
1     True
2    False
3    False
4     True
dtype: bool

複数カラムの場合はリストで渡します。

>>> df.duplicated(subset=['pre','age'])

0    False
1     True
2    False
3    False
4     True
dtype: bool

重複の扱い方を変更する—keep

初期値ではfirst：2つ目の重複から「False」となります。
全ての重複をTrueとする場合にはkeep=Falseとします。

>>> df.duplicated(subset=['pre'], keep=False)

0     True
1     True
2    False
3     True
4     True
dtype: bool

これで重複しているpre（都道府県）の「東京都・北海道」がTrueとなり、重複していない神奈川県がFalseとなりました。

重複した行を抽出する方法

重複している行を抽出する方法は簡単です。

重複内容を新しいデータフレームとして定義するだけです。

duplicated_df = df[df.duplicated(subset=['pre'], keep=False)]
>>> duplicated_df

        pre	name	age
0	東京都	saki	10
1	東京都	saki	10
3	北海道	toshi	29
4	北海道	kei	29

これで任意の重複行を抽出できます。

重複を削除する—df.drop_duplicates()

DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False, ignore_index=False)

返り値：データフレームもしくは無し

引数	意味
subset	初期値無し。列を指定できる。特定列の重複のみを選択する場合は指定する。
keep	初期値=`'first'` `first`：最初の値以外は重複(True)として扱う `last`：最後の値以外は重複(True)として扱う `False`：重複する値全てを重複として扱う

df.duplicated()と同様です。返り値が重複を除いたデータフレームとなります。

完全重複を削除

>>> df.drop_duplicates()

       pre	name	age
0	東京都	saki	10
2	神奈川県	takeshi	42
3	北海道	toshi	29
4	北海道	kei	29

重複行の2行目が削除されました。

特定列の重複を削除

特定の列の重複を確認する場合には、subset=[]で指定します。

>>> df.drop_duplicates(subset=['pre','age'])

        pre	name	age
0	東京都	saki	10
2	神奈川県	takeshi	42
3	北海道	toshi	29

全ての重複行を除いてみます。

>>> df.drop_duplicates(subset=['pre'], keep=False)

        pre	name	age
2	神奈川県	takeshi	42

データフレームの上書き

元のデータフレームを上書きする場合にはinplace=Trueを指定します。

df.drop_duplicates(inplace=True)

インデックスの振り直し—reset_index()

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=”)

重複を削除した際に、併せて行いたいのがインデックスの振り直しです。

drop=Trueとすることで、元のインデックスが削除されます。また、データフレームの上書きはinplace=Trueで指定。

>>> df.drop_duplicates(inplace=True)
>>> df

index　 prefecture	name	age
0	東京都	saki	10
2	神奈川県	takeshi	42
3	北海道	toshi	29
4	北海道	kei	29

上記のように重複削除後にはインデックス番号がバラバラなので振りなおします。

>>> df.reset_index(drop=True, inplace=True)
>>> df

index	prefecture	name	age
0	東京都	saki	10
1	神奈川県	takeshi	42
2	北海道	toshi	29
3	北海道	kei	29

インデックスが振りなおされました。

参考

この記事のサンプルコード

pandas公式ドキュメント：

機械学習・データ処理を学ぶのにおすすめの教材

じっくり書籍で学習するなら！

Python実践データ分析100本ノック

¥2,499 （2025/06/08 03:50時点 | Amazon調べ）

Yahooショッピング

ポチップ

Python 実践データ加工/可視化 100本ノック

¥2,870 （2025/06/08 03:50時点 | Amazon調べ）

Yahooショッピング

ポチップ

Kaggleで勝つデータ分析の技術

¥3,608 （2025/06/09 17:29時点 | Amazon調べ）

Yahooショッピング

ポチップ

Pythonデータ分析／機械学習のための基本コーディング！ pandasライブラリ活用入門 impress top gearシリーズ

¥2,090 （2022/02/20 08:45時点 | Amazon調べ）

Yahooショッピング

ポチップ

URLをコピーしました！

コメント

コメントするコメントをキャンセル