Pythonはデータ分析やデータ処理に非常に便利な言語で、その中でもCSVファイルの操作はよく行われます。特に、CSVファイルから重複行を削除するという操作は、データクレンジングの一環として頻繁に行われます。
PythonでCSVファイルから重複行を削除するためには、pandasというライブラリを使用します。以下に具体的なコードを示します。
import pandas
# 重複ありcsvファイルのロード
csvfile_path='C:/duplicated_sample.csv'
dataframe = pandas.read_csv(filepath_or_buffer=csvfile_path,encoding="cp932")
# 「お店」のSeriesを取得
series = dataframe['お店']
# 重複チェック
print('===== 重複チェック =====')
print(f'重複チェック: {series.duplicated().any()}')
# ユニークなSeriesを取り出し
print('===== drop_duplicates() ユニークなSeriesを取り出し =====')
print(f'データタイプ: {type(series.drop_duplicates())}')
print(series.drop_duplicates())
# ユニークなSeriesをNumpyArrayで取り出し
print('===== unique() ユニークなNumpyArrayを取り出し =====')
print(f'データタイプ: {type(series.unique())}')
print(series.unique())
このコードは、duplicated_sample.csv
というCSVファイルから重複行を削除するものです。具体的には、「お店」の列で重複する行を削除し、ユニークな値だけを取り出しています。
このように、Pythonとpandasを使うと、CSVファイルの重複行を簡単に削除することができます。データ分析を行う際には、このようなデータの前処理が非常に重要となります。
以上、PythonでCSVファイルから重複行を削除する方法について解説しました。この記事が、Pythonを使ったデータ処理の一助となれば幸いです。.