【AWS】Amazon Textractを使ってPDF解析を行ってみた [日本語ダメでした]

はじめに

こんにちは、がんがんです。
以前、Pythonを用いたOCR解析の実験を行いました。割とよい精度で出来たのですが当時は画像でした。前回の記事はこちらから参照ください。
gangannikki.hatenadiary.jp


さて、現在進行中のプロジェクトでは日本語PDFを解析したいという課題があります。
本課題を解消するためにクラウドサービスを用いたOCR解析の使用を検討しております。

本記事ではAWSさんが提供するAmazon Textractを用いて比較・検証を行っていきます。

目的

解析対象

  • 日本語で書かれたPDF
  • 形式としてはExcelファイルをエクスポートした形

Amazon Textractとは

Amazon Textractとは、AWSが提供しているドキュメントのOCR解析ツールです。
aws.amazon.com

実験手順

実験手順は非常に簡単でした。コンソールにアクセスし、Textractを検索します。
下記のような画面が表示されたら、テキストとデータの抽出を開始するを選択します。

f:id:gangannikki:20200214215010j:plain
Textractの画面

ドキュメントのアップロードを選択し、10ページ以内のドキュメントをアップロードします。アップロード先としてはS3が選択されます。

実験結果

結果はこのようになっていました。Sampleだと綺麗に出来ていたのになぜ??ってなりました。

f:id:gangannikki:20200214215006j:plain
Textractの実験結果

出来ない理由を調査してみると…

調査してみた結果、どうやら日本語に対応して内容でした…
tech.mof-mof.co.jp

qiita.com


実際に公式ドキュメントのよくある質問を確認するとこのように書かれてました。
現状のドキュメントでこのように書かれているのでまだ日本語には対応されていないのかな?

Q: Amazon Textract で検出して抽出できるのは、どのタイプのテキストですか?

A: Amazon Textract は、標準的な英語のアルファベットと ASCII 記号からラテン文字を検出できます。

おわりに

今回は日本語PDFのOCR解析としてAmazon Textractを使用した実験を行いました。
結果として上手くいかなかったものの、自身の知見が広がったので良かったです。

次回はGCPで提供されているGoogle Cloud Vision APIOCR解析ツールを使用して比較実験を行っていきます。