Pythonのライブラリであるpandasを使って、CSVファイルから重複行を抽出する方法について説明します。
まず、pandasをインポートします。
import pandas as pd
次に、CSVファイルを読み込みます。ここでは、data.csv
という名前のファイルを読み込むとします。
df = pd.read_csv('data.csv')
そして、duplicated()
関数を使って重複行を抽出します。この関数は、重複した行をTrueとして返します。
duplicates = df.duplicated()
この結果を使って、重複行だけを抽出することができます。
df_duplicates = df[duplicates]
以上で、CSVファイルから重複行を抽出する方法を説明しました。この方法を使えば、大量のデータから重複を見つけ出すことが可能です。
なお、重複行を削除したい場合は、drop_duplicates()
関数を使います。
df_no_duplicates = df.drop_duplicates()
この方法で、重複行を削除した新しいDataFrameを作成することができます。
以上、Pythonとpandasを使ったCSVファイルの重複行の抽出と削除方法についての説明でした。これらの方法を活用して、データ分析に役立ててください。.