投稿日: Aug 9, 2021
Amazon Comprehend は、機械学習を用いてテキストドキュメントを分析し、テキスト内のセンチメント、エンティティ、トピックなどのインサイトを特定する自然言語処理(NLP)サービスです。現在、カスタムエンティティ認識モデルを更新し、より少ないトレーニングドキュメントでモデルをトレーニングできるようにしています。カスタムエンティティ認識は、Amazon Comprehend の機能を拡張し、プリセットされたジェネリックエンティティタイプの 1 つとしてサポートされていない新しいエンティティタイプを識別できるようにします。つまり、Detect Entities API から LOCATION や DATE 、PERSON などのエンティティタイプを識別することに加えて、ドキュメントを分析して、PRODUCT_CODE、EMPLOYEE_ID、CONTRACTOR_NAME などのエンティティや、特定のニーズに合わせて定義したビジネス固有のエンティティを抽出することができるのです。本日より、最低限必要なトレーニングドキュメントを 50 %削減しました。つまり、250 個のドキュメントからエンティティタイプごとに 100 個のアノテーションだけで、カスタムモデルをトレーニングすることができるのです。より多くのトレーニングドキュメントがあれば、より新しいモデルから以前よりよい結果を得ると期待することもできますよ!
更新されたカスタムエンティティ認識モデルは、Amazon Comprehend が利用可能なすべての AWS リージョンで利用できます。新しい機能を試すには、Amazon Comprehend コンソール にログインしてコードフリーで体験するか、AWS SDK をダウンロードしてください。また、この新機能についての詳細は、ブログ をご覧ください。