Pythonでは、CSVファイルとZIPファイルを簡単に扱うことができます。特に、pandasライブラリを使用すると、CSVファイルの読み書きやZIPファイルの操作が容易になります。

CSVファイルの読み込み

pandasのread_csv関数を使用すると、CSVファイルを簡単に読み込むことができます。さらに、この関数は圧縮ファイルも自動的に解凍してくれます。

import pandas as pd
df = pd.read_csv('gzipで圧縮されたファイル.gz', sep='\\t', header=None)

このコードでは、read_csv関数のcompression引数がデフォルトの'infer'に設定されているため、ファイルの拡張子を見て適切な圧縮形式を自動的に判断します。

ZIPファイルの操作

Pythonのzipfileモジュールを使用すると、ZIPファイル内のファイルにアクセスしたり、新たにZIPファイルを作成したりすることができます。

import os
import zipfile
import glob
import pandas as pd
import time

df_list = list()
start = time.time()

for i, zips in enumerate(zip_list):
    zip_f = zipfile.ZipFile(zips)
    file_list = zip_f.namelist()  # file names of csv files in zip
    for j, files in enumerate(file_list):
        print('reading following file...' + zips + '/' + files)
        df = pd.read_csv(zip_f.open(files))
        df_list.append(df)

elapsed_time = time.time() - start
print ("elapsed_time:{0}".format(elapsed_time) + "[sec]")

このコードでは、ZIPファイル内のすべてのCSVファイルを一度に読み込み、それらを一つのリストに格納しています。

以上のように、Pythonを使用すれば、CSVファイルとZIPファイルの操作が容易になります。これらの機能を活用して、データの取り扱いをより効率的に行いましょう。.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です