PythonでCSVファイルを読み込む際には、様々な方法があります。ここでは、特に大量のCSVファイルを効率よく読み込むためのいくつかのテクニックを紹介します。
pandasを使った方法
pandasライブラリは、データ分析を行う際に非常に便利なツールです。pandasを使ってCSVファイルを読み込む基本的なコードは以下の通りです。
import pandas as pd
df = pd.read_csv('sample.csv')
しかし、大量のCSVファイルを読み込む場合、この方法だと処理速度が遅くなる可能性があります。そのため、以下のような工夫をすると良いでしょう。
import pandas as pd
# CSVファイルのリスト
files = ['file1.csv', 'file2.csv', 'file3.csv']
# 各CSVファイルを読み込み、一つのDataFrameに結合
df = pd.concat([pd.read_csv(f) for f in files])
このコードでは、リスト内包表記を使って複数のCSVファイルを一度に読み込み、pd.concat
関数でそれらを一つのDataFrameに結合しています。
globを使った方法
また、特定のパターンに一致するファイル名を取得するためにglobモジュールを使用することもできます。
import glob
import pandas as pd
# CSVファイルのリストを取得
files = glob.glob('*.csv')
# 各CSVファイルを読み込み、一つのDataFrameに結合
df = pd.concat([pd.read_csv(f) for f in files])
このコードでは、glob.glob('*.csv')
でカレントディレクトリにある全てのCSVファイルのリストを取得し、それらを一度に読み込んでいます。
以上、PythonでCSVファイルを効率的に読み込むためのいくつかの方法を紹介しました。これらのテクニックを活用して、大量のデータを扱う際の処理速度を向上させることができます。.