クリエイターの教科書

Excel, ChatGPT, Stable Diffusion, Visual Studioなどの教科書

PDFから文字を抜き出すPython

PDFから文字を抜き出す場合、オンラインでもいいのですが、社内文書はオンラインではセキュリティが不安です。

 

以下Pythonで抜き出し可能。

 

事前にpip install pdfplumber

でインストールください。

 

ソースはこちら。日本語も大丈夫でした。

import pdfplumber

pdf_path = "hana.pdf"
all_text = ""

with pdfplumber.open(pdf_path) as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        if text:
            all_text += text + "\n"

print(all_text)

 

PDF Liberation & OSM Hackathon

このブログは、ネットや書籍上の情報、個人の体験や感想を中心にまとめたものです。 正確性を期していはいますが、間違い・誤訳等あるかもしれません。 当サイトの情報によって生じたいかなる損失について一切の責任を負わないものとします. あらかじめご了承ください。

プライバシーポリシー |〇利用規約 |〇問い合わせ