【AWS】Amazon Textractを使ってPDF解析を行ってみた　[日本語ダメでした]

こんにちは、がんがんです。
以前、Pythonを用いたOCR解析の実験を行いました。割とよい精度で出来たのですが当時は画像でした。前回の記事はこちらから参照ください。
gangannikki.hatenadiary.jp

さて、現在進行中のプロジェクトでは日本語PDFを解析したいという課題があります。
本課題を解消するためにクラウドサービスを用いたOCR解析の使用を検討しております。

本記事ではAWSさんが提供するAmazon Textractを用いて比較・検証を行っていきます。

Amazon Textractとは、AWSが提供しているドキュメントのOCR解析ツールです。
aws.amazon.com

実験手順は非常に簡単でした。コンソールにアクセスし、Textractを検索します。
下記のような画面が表示されたら、テキストとデータの抽出を開始するを選択します。

ドキュメントのアップロードを選択し、10ページ以内のドキュメントをアップロードします。アップロード先としてはS3が選択されます。

結果はこのようになっていました。Sampleだと綺麗に出来ていたのになぜ？？ってなりました。

調査してみた結果、どうやら日本語に対応して内容でした…
tech.mof-mof.co.jp

実際に公式ドキュメントのよくある質問を確認するとこのように書かれてました。
現状のドキュメントでこのように書かれているのでまだ日本語には対応されていないのかな？

Q: Amazon Textract で検出して抽出できるのは、どのタイプのテキストですか?
A: Amazon Textract は、標準的な英語のアルファベットと ASCII 記号からラテン文字を検出できます。

今回は日本語PDFのOCR解析としてAmazon Textractを使用した実験を行いました。
結果として上手くいかなかったものの、自身の知見が広がったので良かったです。

次回はGCPで提供されているGoogle Cloud Vision APIのOCR解析ツールを使用して比較実験を行っていきます。

ganganの技術備忘録