【Python】日本語のPDFデータを読み込む｜pdfminer.six

Pythonで日本語のPDFを読み取る方法を解説します。

- この記事の執筆：2019年12月28日
- 執筆時点の解説対象モジュールの最新バージョン：2019年11月10日リリース
- 参考URL：https://pypi.org/project/pdfminer.six/

Pythonで日本語のPDFデータを読み込む方法
- pdfminer.sixをインストールする
  - 自動で保存されるpdf2txt.pyというPythonスクリプト
  - pdf2txt.pyを実行する
- Pythonで日本語のPDFデータを読み込む方法まとめ

Pythonで日本語のPDFデータを読み込む方法

私はAnacondaをインストールしており、コマンドラインにはAnaconda Promptを利用しています。

pdfminer.sixをインストールする

まず、Anaconda Promptで日本語のPDFを読み取る事ができる、pdfminer.sixというモジュールをインポートします。コマンドラインに下記を打ち込んで実行します。

pip install pdfminer.six

これでpdfminer.sixを無事にインストールすることができました。

自動で保存されるpdf2txt.pyというPythonスクリプト

インストールが完了すると同時に、pdf2txt.pyと言うPythonのスクリプトが保存されます。私の場合、下記のパスにpdf2txt.pyが保存されました。

C:\Anaconda\Scripts

pdf2txt.pyはPythonのプログラムを実行するためのファイルが保存されているディレクトリに保存されます。

よって保存されるディレクトリのパスは環境によって異なります。私の場合は、Anacondaをインストールして利用しているので、上記のディレクトリに保存されました。このpdf2txt.pyを実行する事により、PDFをテキストデータに変換する事ができます。

pdf2txt.pyを実行する

それでは実行します。Pythonのスクリプトを実行するにはコマンドラインでそのスクリプトが書いてあるところに移動して、実行するのが最も簡単です。実行する時に引数を渡すことができるので、それらの引数を同時に渡します。まずはディレクトリを変更します。

cd C:\Anaconda\Scripts

今回のサンプルでは、国土交通省のウェブサイトからダウンロードした平日の空港間純流動というPDFデータを使います。Cドライブ直下にsampleというフォルダを作り、その中にこのPDFをsamplePDF.pdfという名前で保存しました。
今回使うPDFファイル：https://www.mlit.go.jp/common/001266970.pdf

下記をAnacondaプロンプトに打ち込んで実行します。

python pdf2txt.py C:\sample\samplePDF.pdf

pythonの文字列＋半角スペースの後に実行したいPythonスクリプトのファイル名、半角スペース、読み取りたいPDFのフルパスを書いています。これを実行するだけです。

Pythonで日本語のPDFデータを読み込む方法まとめ

Pythonのプログラムを実行しただけで、自分でPythonを書くところはありませんでした。プログラムの勉強と言うより、Pythonスクリプトの実行方法の解説でしたね。まとめると以下の通りです。

日本語のPDFファイルを読み取るにはpdfminer.sixをインストールして使う
pdfminer.sixをインストールすると自動的にpdf2txt.pyというPDFを読み取るスクリプトが保存される
pdf2txt.pyが保存される場所は環境により異なる。検索などで探す。
pdf2txt.pyを実行する時は、引数として読み取りたいPDFのフルパスを渡す

Pythonスクリプトの実行方法に慣れて、様々な作業をプログラムから実行してみましょう！

＜関連記事＞

業務改善におすすめのプログラミング入門言語 3選 + 厳選入門書

ゆんの業務改善ブログ

①生産性向上 ②業務改善 ③自動化　について情報発信しています。VBAプログラムは本当の初心者から他のアプリケーションを呼び出して使う上級者的な使い方まで幅広いレベルで解説していきます。