Amazon Textract に関するよくある質問

全般

Amazon Textract はドキュメント用の分析サービスです。このサービスでは、印刷もしくは手書きのテキスト、関心のあるフィールドやその値などの構造化されたデータ、画像やドキュメントのスキャン結果にある表などに対し、検出および抽出を行います。Amazon Textract の機械学習モデルは何百万ものドキュメントでトレーニングされているため、アップロードするドキュメントタイプは事実上すべて自動的に認識され、テキスト抽出のために処理されます。このサービスでは、ドキュメントから情報を抽出する際に、識別する要素ごとの信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。例えば、税務書類から情報を抽出している場合、抽出された情報の信頼スコアが 95% 未満であればフラグを立てるカスタムルールを設定することができます。また、抽出されたすべてのデータが、境界ボックスの座標、つまり識別されたデータの各要素を完全に囲む四角いフレームと共に返されるため、ドキュメントで単語や数字が表示される場所をすばやく識別できます。これらの機能には、AWS マネジメントコンソールで、または AWS コマンドラインインターフェイス (CLI) を使用して、Amazon Textract API でアクセスできます。

Amazon Textract の最も一般的なユースケースは次のとおりです。

  • ドキュメントやフォームをビジネスアプリケーションにインポートする
  • スマート検索インデックスを作成する 
  • ドキュメントの自動処理ワークフローを構築する
  • ドキュメントアーカイブでコンプライアンスを維持する
  • 自然言語処理 (NLP) のためにテキストを抽出する
  • ドキュメントの分類のためにテキストを抽出する

Amazon Textract は、標準的な英語のアルファベットと ASCII 記号を使用している、印刷されたテキストもしくは手書きの文字を検出できます。Amazon Textract は、英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語で印刷されたテキスト、フォーム、表を抽出することができます。また、Amazon Textract は、テンプレートや設定を必要とすることなく、ほとんどの英語の請求書や領収書で明示的にラベル化されたデータ、暗示的なデータ、そして品目やサービスの項目リストから明細品目を抽出します。Amazon Textract は、米国のパスポートや運転免許証などの英語の身分証明書から、名前や住所などの特定または暗示的なデータを、テンプレートや設定なしに抽出することもできます。最後に、Amazon Textract は、英語でのクエリを使用して、ドキュメント内のデータの構造やバリエーションを気にすることなく、ドキュメントから任意の特定のデータを抽出することができます。

Amazon Textract は、現時点では PNG、JPEG、TIFF、および PDF 形式をサポートしています。同期 API では、S3 オブジェクトまたはバイト配列として画像を送信できます。非同期 API では、S3 オブジェクトを送信できます。ドキュメントがすでに Amazon Textract がサポートするファイル形式 (PDF、TIFF、JPG、PNG) のいずれかである場合、Amazon Textract にアップロードする前に変換や低解像度処理をしないでください。

Amazon Textract ページの [Amazon Textract の使用を開始] ボタンをクリックして、Amazon Textract の使用を開始できます。これには Amazon Web Services のアカウントが必要です。まだお持ちでない場合は、プロセス中の画面の指示に従って作成してください。AWS アカウントにサインインしたら、Amazon Textract マネジメントコンソールを使用して、独自の画像または PDF ドキュメントで Amazon Textract を試してみてください。Amazon Textract SDK をダウンロードして、独自のアプリケーションの作成を開始することもできます。詳細については、ステップバイステップの「開始方法ガイド」をご覧ください。

Amazon Textract は Detect Document Text API を使用して OCR を実行しますが、ドキュメントの分析プロセスではさらに一歩進んで、テキストの抽出結果が意図した構造で整理されたままになるように、キーと値のペアの検出も行います。Analyze Document API では、ドキュメント内の印刷されたテキスト、手書き文字、フィールド、値、それらの関係、表、およびその他のエンティティを、関連する信頼性スコアと共に検出できます。デベロッパーは Analyze Document API を使用することで、税務書類、財務報告書、診療記録、ローンの申し込みなどのさまざまなドキュメントから、自動的に構造化されたデータを取得できるようになります。また、Analyze Document API は、デベロッパーがデータの構造や、異なるフォーマットやバージョンのドキュメント間でのデータのレイアウトのバリエーションを気にすることなく、クエリを使用してドキュメントから抽出する必要のあるデータを柔軟に指定できるようにします。カスタムクエリを使用すると、クエリ機能をカスタマイズして、ビジネス固有のドキュメントの抽出精度を向上させることができます。Analyze Expense API は、「ベンダー」という明示的なラベルがなく、ページ上のロゴで示されているだけの領収書であっても、ベンダー名を見つけることができます。また、行項目のカラムヘッダーでラベル付けされていない項目、数量、料金を見つけて抽出することができます。Analyze Expense API を使用すると、デベロッパーは請求書や領収書からデータを抽出する際に、正規化されたキー名や列ヘッダーを使用することができ、多数のドキュメントから出力されたデータを下流のアプリケーションが簡単に比較することができます。Analyze ID API は、テンプレートや設定を必要とせずに、米国のパスポートや運転免許証などの身分証明書のコンテキストを理解します。Analyze ID を使用すると、ID 検証サービスを提供する企業や、金融、ヘルスケア、および保険業界の企業は、顧客が身分証明書の写真やスキャンデータを送信できるようにすることで、アカウントの作成、予約のスケジュール設定、求人への応募などを簡単に自動化できます。詳細については、Amazon Textract API リファレンスをご覧ください。

Analyze Document API には、フォーム、テーブル、クエリ、カスタムクエリ、署名、レイアウトなどの機能があります。これらの機能は単独で使用することもできますし、任意の組み合わせで一緒に使用することもできます。フォームを使用して、キーと値のペア (例:「First Name」と関連する値「Jane Smith」) のようなデータを抽出します。テーブルを使用して、列や行で構成された表形式、または表のデータを抽出します。クエリを使用すると、自然言語の質問形式でドキュメントから必要な情報 (例:「顧客名は何か?」) を指定し、その回答 (例:「Jane Doe」) をレスポンスの一部として受け取ることができます。カスタムクエリを使用して、ビジネス固有のドキュメントのクエリ機能をカスタマイズします。署名を使用してドキュメント上の署名を検出し、レイアウトを使用してドキュメント内のレイアウト要素を識別できます。

Textract Resources ページでは、クエリを作成するためのベストプラクティスに関する詳細なガイダンスを API ドキュメント の一部として公開しています。一般的に、お客様はクエリを作成するためにドキュメントの単語を利用した自然言語の質問をするように心がけてください。

クエリはページ単位で処理され、クエリを使用することで、同期または非同期のオペレーションで情報を抽出することができます。同期オペレーションでは、1 ページあたり最大 15 クエリがサポートされます。非同期オペレーションでは、1 ページあたり最大 30 クエリがサポートされます。

Amazon Textract では、機械学習を使用し事実上あらゆるタイプの文書を読み込むことで、印刷されたテキスト、手書き文字、および構造化情報などの抽出を実現しています。最良の結果を得るためには、次のヒントに留意してください。

  • 対象のドキュメントでは、Amazon Textract でサポートされた言語 (現状では、英語、スペイン語、イタリア語、ポルトガル語、フランス語、ドイツ語対応) を使用してください。手書き、請求書と領収書、身分証明書、クエリ処理は英語のみです。
  • できるだけ高画質、できれば 150 DPI 以上の画像を使用してください。
  • ドキュメントがすでに Amazon Textract がサポートするファイル形式 (PDF、JPG、PNG) のいずれかである場合、Amazon Textract にアップロードする前に変換や低解像度処理をしないでください。
  • Amazon Textract のテーブル機能は、ドキュメント内のテーブルがページ上の周囲の要素から視覚的に分離され (例: 画像や複雑なパターンの上に重ならない)、テーブル内のテキストが適切である場合 (例: ページ上のほかのテキストに対して相対的に回転しない) に最も効果的に機能します。

Amazon Textract マネジメントコンソールで数回クリックするだけで、Amazon Textract を使用して自分のドキュメントの分析を開始できます。受領書、ID、または工業用ダイアグラムで高精度が実現されない場合、amazon-textract@amazon.com にお問い合わせください。

信頼スコアは 0 から 100 までの数字で、特定の予測がどの程度正確であるかを示します。Amazon Textract では、印刷されたテキスト、手書き文字、構造化データなどのすべての抽出結果は、境界ボックスの座標、つまり識別されたデータの各要素を完全に囲む四角いフレームと共に返されます。これにより、抽出されたエンティティごとのスコアを識別できるため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。

Amazon Textract は現在、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、AWS GovCloud (米国西部)、AWS GovCloud (米国東部)、カナダ (中部)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、欧州 (パリ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ソウル)、およびアジアパシフィック (ムンバイ) の、各リージョンで利用いただけます。

はい。Amazon Textract は、CloudTrail イベントとして、DetectDocumentText、AnalyzeDocument、StartDocumentTextDetection、StartDocumentAnalysis、GetDocumentTextDetection、および GetDocumentAnalysis のアクションのロギングをサポートしています。詳細については、「Logging Amazon Textract API Calls with AWS CloudTrail」をご覧ください。

Amazon Textract サービスクォータ (以前はサービス制限と呼ばれていました) は、AWS Service Quotas コンソールで表示および管理できます。Textract Service Quota 計算ツールを使用して、ユースケースのクォータ要件を見積もることもできます。サービスクォータの引き上げをリクエストを作成する方法:

1.AWS コンソールにログインし、AWS Service Quotas コンソールに移動して、AWS サービスの下にある [Textract] を選択します。
2.希望するクォータを選択し、次のページで [クォータの引き上げのリクエスト] をクリックします。
3.希望するクォータ値を入力し、[リクエスト] をクリックします。

スロットリングを軽減するには、以下のアプローチをお勧めします。

1.再試行ロジックを実装します。エラー処理ガイドラインに従って、スロットリングエラーの再試行を設定してください。
2.エクスポネンシャルバックオフとジッターを設定します。再試行を設定するときにエクスポネンシャルバックオフとジッタ―を設定すると、達成可能なスループットを向上させることができます。「AWS でのエラーの再試行とエクスポネンシャルバックオフ」をご覧ください。
3.トラフィックフローをスムーズにします。トラフィックの急増はスループットに影響します。割り当てられた 1 秒あたりのトランザクション数 (TPS) のスループットを最大化するには、キューイングサーバーレスアーキテクチャなどのメカニズムを使用してトラフィックを「スムーズ化」し、一貫性を高めます。
4.ベストプラクティスを適用したサンプルから始めましょう。 CDK コンストラクトIDP CDK サンプルを使用してみてください。
5.Textract サービスクォータ計算ツールを使用して、ユースケースのクォータ要件を見積もり、AWS Service Quotas コンソールからクォータ引き上げリクエストを送信してください。

請求

画像 (PNG、TIFF または JPEG) 1 つが単一のページとして計算されます。PDF の場合、ドキュメントの各ページは処理されたページとして計算されます。

料金の詳細については、Amazon Textract の料金ページをご覧ください。

Amazon Textract では、処理されたページと画像の数に基づいて課金されます。詳細については、料金ページにアクセスしてください。

はい。AWS 無料利用枠の一環として、Amazon Textract の使用を無料で開始できます。無料利用枠は 3 か月間有効で、新規に AWS をご利用になるお客様は、最大で次の分析が可能です。

Detect Document Text API: 1,000 ページ/月
Analyze Document API:

  • 1,000 ページ/月 (署名のみを使用する場合)
  • フォーム、テーブル、およびレイアウトの機能を使用する場合、100 ページ/月
  • クエリ、フォーム + クエリ、テーブル + クエリ、フォーム + テーブル + クエリ、それぞれ 100 ページ/月
  • カスタムクエリには無料利用枠はありません

Analyze Expense API: 100 ページ/月
Analyze ID API: 100 ページ/月
Analyze Lending API: 2,000 ページ/月

税の詳細については、「Amazon Web Services 税務ヘルプ」をご覧ください。

データプライバシー

Amazon Textract では、サービスの提供と保守、ならびに Amazon Textract やその他の Amazon 機械学習/人口知能技術の開発と品質向上のためにのみ、サービスで処理されたドキュメントと画像の入力を保存して使用することがあります。お客様のコンテンツを使用することは、関連テクノロジーの開発やトレーニングなど、Amazon Textract のサービスを継続的に改善するために必要です。AWS では、お客様のコンテンツに含まれる個人情報を使用して、お客様やお客様のエンドユーザーを製品、サービス、またはマーケティングのターゲットにすることはありません。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://thinkwithwp.com/compliance/data-privacy-faq/ を参照してください。AWS Organizations オプトアウトポリシーを使用して、Amazon Textract や他の Amazon 機械学習/人工知能技術の品質の向上を目的としてお客様の文書および画像の入力が保存されることがないようにオプトアウトすることができます。オプトアウトする方法の詳細については、「AI サービスのオプトアウトポリシー」を参照してください。

Amazon Textract が処理したコンテンツは、お客様が Amazon Textract を利用している AWS リージョン内に暗号化され保存されます。下記のようにオプトアウトしない限りにおいて、Amazon Textract で処理されたコンテンツの一部は、Amazon Textract のカスタマーエクスペリエンスやその他の Amazon 機械学習/人工知能技術の継続的な改善と開発に関連する場合のみ、別の AWS リージョンに保存されることがあります。お客様のアカウントに関連する画像およびビデオ入力の削除リクエストについては、AWS サポートにお問い合わせください。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://thinkwithwp.com/compliance/data-privacy-faq/ を参照してください。Amazon Textract や他の Amazon の機械学習/人工知能技術の品質を向上および開発するためのコンテンツの使用をオプトアウトした場合、他の AWS リージョンにお客様のコンテンツが保存されることはありません。オプトアウトする方法の詳細については、「AI サービスのオプトアウトポリシー」を参照してください。

はい。お客様のアカウントに関連するドキュメントおよび画像の入力の削除リクエストについては、AWS Support にお問い合わせください。ドキュメントと画像の入力を削除すると、Amazon Textract の使い心地が悪くなる可能性があります。

はい。お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の同意なく使用することはありません。

アダプターの生成に使用されるコンテンツはすべて、トレーニング期間中 Amazon Textract 内で内部的に処理されます。コンテンツは保管中も転送中も暗号化されます。コンテンツは、アダプターをトレーニングしている AWS リージョンに保存および処理され、トレーニングが完了すると削除されます。詳細については、https://docs.thinkwithwp.com/textract/latest/dg/data-protection.html をご覧ください。

はい。AWS では HIPAA 準拠プログラムを拡張し、Amazon Textract を HIPAA 対応サービスとして追加しました。AWS と事業提携契約 (BAA) を締結している場合は、Amazon Textract を使用して画像から保護医療情報 (PHI) などのテキストを迅速に抽出できるようになります。

HIPAA コンプライアンスの詳細

Textract は HIPAA に適合しており、PCI、ISO、および SOC に準拠しています。詳細については、AWS マネジメントコンソールで AWS Artifact にアクセスするか、または https://thinkwithwp.com/compliance/services-in-scope/ にアクセスしてください。 Textract は、AWS PrivateLink 経由で Amazon Virtual Private Cloud (Amazon VPC) エンドポイントもサポートするため、お客様はパブリックインターネットの使用を回避しながら、Amazon Textract に対する API コールを、VPC 内で安全に開始できます。