Pythonは、その豊富なライブラリとAPIにより、PDFからテキストを抽出するための強力なツールとなります。この記事では、Pythonを使用してPDFからテキストを抽出する方法を紹介します。
PythonでPDFからテキストを抽出する
PythonでPDFからテキストを抽出するためには、Spire.Doc for Python
というライブラリが必要です。このライブラリは、PDFをテキストに変換するための機能を提供しています。
インストール
まずはじめに、Spire.Doc for Python
をインストールします。以下のコマンドを実行してください。
pip install Spire.Doc
PDFからテキストを抽出するコード
以下に、Pythonを使用してPDFからテキストを抽出する基本的なコードを示します。
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
# PdfDocumentクラスのオブジェクトを作成し、PDFファイルをロードします
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")
# テキストを保存するための文字列オブジェクトを作成します
extracted_text = ""
# PdfExtractorのオブジェクトを作成します
extract_options = PdfTextExtractOptions()
# ドキュメント内のページをループします
for i in range(pdf.Pages.Count):
# ページを取得します
page = pdf.Pages.get_Item(i)
# ページをパラメータとして渡してPdfTextExtractorのオブジェクトを作成します
text_extractor = PdfTextExtractor(page)
# ページからテキストを抽出します
text = text_extractor.ExtractText(extract_options)
# 抽出されたテキストを文字列オブジェクトに追加します
extracted_text += text
# 抽出されたテキストをテキストファイルに書き込みます
with open("output/抽出テキスト.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
pdf.Close()
このコードは、指定したPDFファイルからテキストを抽出し、それを新しいテキストファイルに書き込むものです。
まとめ
Pythonは、その強力なライブラリとAPIを活用することで、PDFからテキストを効率的に抽出することが可能です。この記事で紹介した方法を試してみてください。