PDFから文字を抜き出す場合、オンラインでもいいのですが、社内文書はオンラインではセキュリティが不安です。
以下Pythonで抜き出し可能。
事前にpip install pdfplumber
でインストールください。
ソースはこちら。日本語も大丈夫でした。
import pdfplumber
pdf_path = "hana.pdf"
all_text = ""with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
text = page.extract_text()
if text:
all_text += text + "\n"print(all_text)