Pythonでは、CSVファイルとZIPファイルを簡単に扱うことができます。特に、pandasライブラリを使用すると、CSVファイルの読み書きやZIPファイルの操作が容易になります。
CSVファイルの読み込み
pandasのread_csv
関数を使用すると、CSVファイルを簡単に読み込むことができます。さらに、この関数は圧縮ファイルも自動的に解凍してくれます。
import pandas as pd
df = pd.read_csv('gzipで圧縮されたファイル.gz', sep='\\t', header=None)
このコードでは、read_csv
関数のcompression
引数がデフォルトの'infer'
に設定されているため、ファイルの拡張子を見て適切な圧縮形式を自動的に判断します。
ZIPファイルの操作
Pythonのzipfile
モジュールを使用すると、ZIPファイル内のファイルにアクセスしたり、新たにZIPファイルを作成したりすることができます。
import os
import zipfile
import glob
import pandas as pd
import time
df_list = list()
start = time.time()
for i, zips in enumerate(zip_list):
zip_f = zipfile.ZipFile(zips)
file_list = zip_f.namelist() # file names of csv files in zip
for j, files in enumerate(file_list):
print('reading following file...' + zips + '/' + files)
df = pd.read_csv(zip_f.open(files))
df_list.append(df)
elapsed_time = time.time() - start
print ("elapsed_time:{0}".format(elapsed_time) + "[sec]")
このコードでは、ZIPファイル内のすべてのCSVファイルを一度に読み込み、それらを一つのリストに格納しています。
以上のように、Pythonを使用すれば、CSVファイルとZIPファイルの操作が容易になります。これらの機能を活用して、データの取り扱いをより効率的に行いましょう。.