Pythonは、その豊富なライブラリとモジュールにより、PDFからテキストを抽出する作業を容易にします。この記事では、Pythonを使用してPDFからテキストを抽出する方法を紹介します。

pdfminer.sixを使用したテキスト抽出

pdfminer.sixは、PDFファイルからテキスト情報を抽出する機能を有するPythonモジュールです。以下にその使用例を示します。

!pip install pdfminer.six

import pdfminer

# pdfminer.sixのGitHubから公開されているコード「pdf2txt.py」を作業ディレクトリに持ってくる
# GitHubにサンプルコードが公開されているため、今回はそのまま使用したいと思います。
# 同じ名前でファイルを作成し、コードをコピーすればOKです。

# 「pdf2txt.py」を実行して「sample1.pdf」のテキストを抽出する
!python pdf2txt.py sample1.pdf

PyPDF2を使用したテキスト抽出

PyPDF2もまた、PDFからテキストを抽出するためのPythonライブラリです。以下にその使用例を示します。

import PyPDF2

with open("sample.pdf", "rb") as f:
    reader = PyPDF2.PdfFileReader(f)
    page = reader.getPage(0)
    print(page.extractText())

これらのライブラリを使用することで、Pythonを用いてPDFからテキストを効率的に抽出することが可能です。具体的な使用方法や適用例については、各ライブラリの公式ドキュメンテーションや関連資料を参照してください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です