Pythonで日本語のPDFを読み取る方法を解説します。
- この記事の執筆:2019年12月28日
- 執筆時点の解説対象モジュールの最新バージョン:2019年11月10日リリース
- 参考URL:https://pypi.org/project/pdfminer.six/
目次
Pythonで日本語のPDFデータを読み込む方法
私はAnacondaをインストールしており、コマンドラインにはAnaconda Promptを利用しています。
pdfminer.sixをインストールする
まず、Anaconda Promptで日本語のPDFを読み取る事ができる、pdfminer.sixというモジュールをインポートします。コマンドラインに下記を打ち込んで実行します。
pip install pdfminer.six
これでpdfminer.sixを無事にインストールすることができました。
自動で保存されるpdf2txt.pyというPythonスクリプト
インストールが完了すると同時に、pdf2txt.pyと言うPythonのスクリプトが保存されます。私の場合、下記のパスにpdf2txt.pyが保存されました。
C:\Anaconda\Scripts
pdf2txt.pyはPythonのプログラムを実行するためのファイルが保存されているディレクトリに保存されます。
よって保存されるディレクトリのパスは環境によって異なります。私の場合は、Anacondaをインストールして利用しているので、上記のディレクトリに保存されました。このpdf2txt.pyを実行する事により、PDFをテキストデータに変換する事ができます。
pdf2txt.pyを実行する
それでは実行します。Pythonのスクリプトを実行するにはコマンドラインでそのスクリプトが書いてあるところに移動して、実行するのが最も簡単です。実行する時に引数を渡すことができるので、それらの引数を同時に渡します。まずはディレクトリを変更します。
cd C:\Anaconda\Scripts
今回のサンプルでは、国土交通省のウェブサイトからダウンロードした平日の空港間純流動というPDFデータを使います。Cドライブ直下にsampleというフォルダを作り、その中にこのPDFをsamplePDF.pdfという名前で保存しました。
今回使うPDFファイル:https://www.mlit.go.jp/common/001266970.pdf
下記をAnacondaプロンプトに打ち込んで実行します。
python pdf2txt.py C:\sample\samplePDF.pdf
pythonの文字列+半角スペースの後に実行したいPythonスクリプトのファイル名、半角スペース、読み取りたいPDFのフルパスを書いています。これを実行するだけです。
Pythonで日本語のPDFデータを読み込む方法まとめ
Pythonのプログラムを実行しただけで、自分でPythonを書くところはありませんでした。プログラムの勉強と言うより、Pythonスクリプトの実行方法の解説でしたね。まとめると以下の通りです。
- 日本語のPDFファイルを読み取るにはpdfminer.sixをインストールして使う
- pdfminer.sixをインストールすると自動的にpdf2txt.pyというPDFを読み取るスクリプトが保存される
- pdf2txt.pyが保存される場所は環境により異なる。検索などで探す。
- pdf2txt.pyを実行する時は、引数として読み取りたいPDFのフルパスを渡す
Pythonスクリプトの実行方法に慣れて、様々な作業をプログラムから実行してみましょう!
<関連記事>