【AWS】Amazon Textractを使ってPDF解析を行ってみた [日本語ダメでした]
はじめに
こんにちは、がんがんです。
以前、Pythonを用いたOCR解析の実験を行いました。割とよい精度で出来たのですが当時は画像でした。前回の記事はこちらから参照ください。
gangannikki.hatenadiary.jp
さて、現在進行中のプロジェクトでは日本語PDFを解析したいという課題があります。
本課題を解消するためにクラウドサービスを用いたOCR解析の使用を検討しております。
解析対象
- 日本語で書かれたPDF
- 形式としてはExcelファイルをエクスポートした形
Amazon Textractとは
Amazon Textractとは、AWSが提供しているドキュメントのOCR解析ツールです。
aws.amazon.com
実験手順
実験手順は非常に簡単でした。コンソールにアクセスし、Textract
を検索します。
下記のような画面が表示されたら、テキストとデータの抽出を開始するを選択します。
ドキュメントのアップロード
を選択し、10ページ以内のドキュメントをアップロードします。アップロード先としてはS3が選択されます。
実験結果
結果はこのようになっていました。Sampleだと綺麗に出来ていたのになぜ??ってなりました。
出来ない理由を調査してみると…
調査してみた結果、どうやら日本語に対応して内容でした…
tech.mof-mof.co.jp
実際に公式ドキュメントのよくある質問
を確認するとこのように書かれてました。
現状のドキュメントでこのように書かれているのでまだ日本語には対応されていないのかな?
Q: Amazon Textract で検出して抽出できるのは、どのタイプのテキストですか?
A: Amazon Textract は、標準的な英語のアルファベットと ASCII 記号からラテン文字を検出できます。
おわりに
今回は日本語PDFのOCR解析としてAmazon Textractを使用した実験を行いました。
結果として上手くいかなかったものの、自身の知見が広がったので良かったです。
次回はGCPで提供されているGoogle Cloud Vision APIのOCR解析ツールを使用して比較実験を行っていきます。