Pythonは、その豊富なライブラリとAPIにより、PDFからテキストを抽出するための強力なツールとなります。この記事では、Pythonを使用してPDFからテキストを抽出する方法を紹介します。

PythonでPDFからテキストを抽出する

PythonでPDFからテキストを抽出するためには、Spire.Doc for Pythonというライブラリが必要です。このライブラリは、PDFをテキストに変換するための機能を提供しています。

インストール

まずはじめに、Spire.Doc for Pythonをインストールします。以下のコマンドを実行してください。

pip install Spire.Doc

PDFからテキストを抽出するコード

以下に、Pythonを使用してPDFからテキストを抽出する基本的なコードを示します。

from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# PdfDocumentクラスのオブジェクトを作成し、PDFファイルをロードします
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# テキストを保存するための文字列オブジェクトを作成します
extracted_text = ""

# PdfExtractorのオブジェクトを作成します
extract_options = PdfTextExtractOptions()

# ドキュメント内のページをループします
for i in range(pdf.Pages.Count):
    # ページを取得します
    page = pdf.Pages.get_Item(i)

    # ページをパラメータとして渡してPdfTextExtractorのオブジェクトを作成します
    text_extractor = PdfTextExtractor(page)

    # ページからテキストを抽出します
    text = text_extractor.ExtractText(extract_options)

    # 抽出されたテキストを文字列オブジェクトに追加します
    extracted_text += text

# 抽出されたテキストをテキストファイルに書き込みます
with open("output/抽出テキスト.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

pdf.Close()

このコードは、指定したPDFファイルからテキストを抽出し、それを新しいテキストファイルに書き込むものです。

まとめ

Pythonは、その強力なライブラリとAPIを活用することで、PDFからテキストを効率的に抽出することが可能です。この記事で紹介した方法を試してみてください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です