Pythonは多くの場面で利用される人気の高いプログラミング言語です。その中でも、CSVファイルの文字コードを変換するというタスクは、データ分析やデータ処理を行う際に頻繁に遭遇します。特に、UTF-8からShift-JISへの変換は、日本語を含むデータを扱う際に重要となります。
Pythonでの文字コード変換
Pythonで文字コードを変換するための基本的なコードは以下の通りです。
import csv
# UTF-8のCSVファイルを読み込み
with open('utf8.csv', encoding='utf8') as f_in:
# Shift_JISのCSVファイルを書き込みモードで開く
with open('sjis.csv', 'w', encoding='cp932') as f_out:
# UTF-8のCSVファイルから読み込んだデータをShift_JISのCSVファイルに書き込む
f_out.write(f_in.read())
このコードは、UTF-8でエンコードされたCSVファイル(utf8.csv
)を読み込み、その内容をShift_JISでエンコードされた新しいCSVファイル(sjis.csv
)に書き込むものです。
注意点
Pythonで文字コードを変換する際の注意点として、Pythonの標準エンコーディングはUTF-8であることが挙げられます。そのため、特に指定しない場合、PythonはUTF-8をデフォルトの文字コードとして扱います。
また、Shift_JISへの変換を行う際には、encoding='cp932'
と指定します。これは、Windows環境ではShift_JISがCP932として扱われるためです。
以上、PythonでCSVファイルの文字コードをUTF-8からShift-JISに変換する方法について解説しました。この情報がPythonを用いたデータ処理の一助となれば幸いです。