PythonでCSVファイルのエンコードを理解する

PythonでCSVファイルを扱う際、エンコードは重要な要素の一つです。特に、日本語の文字が含まれる場合、適切なエンコードを指定しないとエラーが発生することがあります。

エンコードエラーの例

PythonでCSVファイルを読み書きする際によく遭遇するエンコードエラーには以下のようなものがあります。

書き込み時のエラー: UnicodeEncodeError: 'shift_jis' codec can't encode character '\\u9ad9' in position 14: illegal multibyte sequence
読み込み時のエラー: UnicodeDecodeError: 'shift_jis' codec can't decode byte 0xee in position 0

これらのエラーは、ファイルの文字コードとPythonで指定したエンコードが一致しない場合に発生します。

PythonでCSVファイルを開く際、open関数のencoding引数でエンコードを指定します。

with open('data.csv', encoding='utf_8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

この例では、utf_8というエンコードを指定しています。

PythonでCSVファイルを扱う際、どのエンコードを選ぶべきかは、ファイルの内容と使用環境によります。

UTF-8: 世界中のあらゆる文字を表現できます。Pythonの標準エンコードでもあります。
cp932またはshift_jis: 日本語の文字を表現できます。ただし、一部の文字（例えば「髙」や「﨑」などの環境依存文字）はcp932でしか扱えません。

PythonでCSVファイルを扱う際は、適切なエンコードを指定することが重要です。エンコードを間違えるとエラーが発生するため、ファイルの内容と使用環境に応じて適切なエンコードを選びましょう。