Pythonは、その豊富なライブラリとモジュールにより、PDFからテキストを抽出する作業を容易にします。この記事では、Pythonを使用してPDFからテキストを抽出する方法を紹介します。
pdfminer.sixを使用したテキスト抽出
pdfminer.six
は、PDFファイルからテキスト情報を抽出する機能を有するPythonモジュールです。以下にその使用例を示します。
!pip install pdfminer.six
import pdfminer
# pdfminer.sixのGitHubから公開されているコード「pdf2txt.py」を作業ディレクトリに持ってくる
# GitHubにサンプルコードが公開されているため、今回はそのまま使用したいと思います。
# 同じ名前でファイルを作成し、コードをコピーすればOKです。
# 「pdf2txt.py」を実行して「sample1.pdf」のテキストを抽出する
!python pdf2txt.py sample1.pdf
PyPDF2を使用したテキスト抽出
PyPDF2
もまた、PDFからテキストを抽出するためのPythonライブラリです。以下にその使用例を示します。
import PyPDF2
with open("sample.pdf", "rb") as f:
reader = PyPDF2.PdfFileReader(f)
page = reader.getPage(0)
print(page.extractText())
これらのライブラリを使用することで、Pythonを用いてPDFからテキストを効率的に抽出することが可能です。具体的な使用方法や適用例については、各ライブラリの公式ドキュメンテーションや関連資料を参照してください。