Amazon Web Services ブログ

新サービス — Amazon SageMaker Ground Truth Plusを発表

2021 年 12 月 1 日(米国時間)、データセットのラベル付けをかつてないほど容易にする Amazon SageMaker スイートの最新サービスを発表できることを嬉しく思います。Ground Truth Plus は、専門スタッフが高品質のトレーニングデータセットを迅速に提供し、コストを最大 40% 削減するターンキーサービスです。

機械学習モデル作成の課題
機械学習 (ML) モデルの構築とトレーニングにおける最大の課題の 1 つは、ラベル付けされた高品質のデータを大規模に調達して、モデルにフィードしてトレーニングし、正確な予測を行うことができるようにすることです。

一見すると、データにラベル付けするのはかなり簡単な作業のように思えるかもしれません…

  • ステップ 1: データを取得する
  • ステップ 2: それにラベル付けする

…しかし、これは現実とはかけ離れています。

ラベラーにアノテーションを開始してもらう前に、高品質のデータセットを得るには、プロジェクトに固有のカスタムラベリングワークフローとユーザーインターフェイスが必要です。これは、堅牢なツールと熟練作業者の組み合わせに依存しており、多大な労力を費やす可能性があります。

データラベリングのワークフローとユーザーインターフェイスを構築したならば、これらのシステムを使用するために、スタッフを編成してトレーニングする必要があります。この作業はすべて、単一のデータポイントにラベル付けする前に完了させる必要があります。

最後は、ラベルリングシステムの構築、ワークフローの設計、およびスタッフのトレーニングと導入が完了したならば、そのシステムにデータを渡すプロセスを監視およびチェックして、一貫性のある高品質の出力を確保する必要があります。システムによって十分なデータが渡され、ラベル付けされると、初めから到達しようとしていたポイントに到達します。ついに、機械学習モデルをトレーニングするのに十分なデータが得られました。

これらの各ステップは、時間、コスト、およびエネルギーへの多大な投資を表しています。データのラベル付けや管理の代わりに、機械学習モデルの構築にこれらのリソースを費やしている可能性があります。Ground TruthPlus を使用すると、自由にそれを行うことができます。

Amazon SageMaker Ground Truth Plus の紹介
Amazon SageMaker Ground Truth Plus を使用すると、ラベルリングアプリケーションを構築したり、ラベル付けのスタッフを自分で管理したりすることなく、高品質のトレーニングデータセットを簡単に作成できます。つまり、ワークフロー設計や品質管理に関する深い機械学習の専門知識や広範な知識さえ必要ありません。ラベル付けの要件とともにデータを提供するだけで、Ground Truth Plus はデータラベリングワークフローを設定し、お客様の要件に応じてお客様に代わって管理します。

たとえば、医療専門家が放射線画像にラベル付けする必要がある場合は、Ground Truth Plus に提供するガイドラインにそれを指定することができます。このサービスでは、放射線についてのトレーニングを受けたラベラーを自動的に選択してデータにラベル付けし、さまざまな機械学習タスクについてトレーニングを受けた専門スタッフがデータのラベル付けを開始します。Ground Truth Plus は、機械学習を活用したデータラベリングを自動化することで、出力データセットの品質を向上させ、データラベリングのコストを削減します。

Amazon SageMaker Ground Truth Plus は、アクティブラーニング、事前ラベリング、およびマシン検証のための機械学習テクニックを含む複数ステップのラベリングワークフローを使用します。これにより、コンピュータビジョンや自然言語処理など、さまざまなユースケースでデータセットのラベル付けに必要な時間が短縮されます。最後に、Ground Truth Plus は、インタラクティブなダッシュボードとユーザーインターフェイスを通じて、データラベリングオペレーションと品質管理に対する透明性を提供します。これにより、複数のプロジェクトにわたるトレーニングデータセットの進捗状況の監視、毎日のスループットなどのプロジェクトメトリクスの追跡、ラベルの品質検査、ラベル付けされたデータに対するフィードバックの提供が可能になります。

その仕組み
リクエストフォームを示す SageMaker Ground Truth Plus のスクリーンショットまず、新しい Ground Truth Plus コンソールに移動し、データラベリングプロジェクトの要件を概説したフォームを記入しましょう。続いて、AWS エキスパートチームが、お客様のデータラベリングプロジェクトについて話し合うための電話をスケジュールします。

電話の後、お客様はラベル付けのために Amazon Simple Storage Service (Amazon S3) バケットにデータをアップロードするだけです。

データがアップロードされると、当社の専門家がお客様の要件に応じてデータラベリングワークフローを設定し、データに効果的にラベル付けするために必要な専門知識を備えたラベラーのチームを作ります。これにより、可能な限り優秀な人材がプロジェクトに取り組めるようになります。

これらの専門のラベラーは、当社が構築した Ground Truth Plus ツールを使用して、これらのデータセットに迅速かつ効果的にラベル付けします。

最初に、ラベラーは CBCL StreetScenes データセットからアップロードした次のサンプル画像のように、アップロードしたデータに注釈を付けます。しかし、ラベラーがラベル付けされたデータの例を提出し始めると、何か素晴らしいことが起こり始めます。私たちの機械学習システムが起動し、専門スタッフに代わって画像の事前ラベル付けを開始します。

Amazon SageMaker Ground Truth Plus の機能を示すために使用された raw データセットの例

専門スタッフがラベル付けするデータが増えるにつれ、機械学習モデルではこれらの画像の事前ラベル付けが改善されます。つまり、データセット内の対象オブジェクトごとにラベルを個別に作成するために人間が費やす時間の必要性が少なくなります。ラベル付けに費やす時間が短くなると、コストが削減されます。また、品質を犠牲にすることなく、モデルのトレーニングに使用できるデータセットを迅速に作成できます。

SageMaker Ground Truth Plus のラベリングインターフェイスの 1 つを示すスクリーンショット

プロセスが進むにつれて、これらの機械学習モデルは、ラベル付けスタッフが見逃していたり、機械検証によって誤ってラベル付けした可能性のある関心領域 (紫色のボックスで下に示されている) もハイライトし始めます。関心領域がハイライトされると、人間のラベラーは、モデルが作成した提案を表示して、承認または削除することができます。これにより、事前ラベル付けの段階と機械検証の段階が繰り返して改善され、ラベラーが手動でデータにラベル付けするのに必要な時間がさらに短縮され、プロセス全体を通して高品質の出力が保証されます。

SageMaker Ground Truth Plus の機械学習モデルにファイルされたラベリングインターフェイスの 1 つを示すスクリーンショット

この作業中は、Ground TruthPlus Project Portal を使用して、プロジェクトの進行状況と出力を監視できます。このポータルでは、ラベル付けされたデータ量を日ごとに追跡し、プロジェクトが許容できる速度で進行していることを確認できます。

SageMaker Ground Truth Plus でラベリングジョブの進行状況を追跡できるようにするメトリクスダッシュボードを示すスクリーンショット

アップロードしてラベル付けした画像のバッチごとに、受け入れるか、何か見落とされた場合に再ラベル付けのために送り返すかを決めることができます。

最後に、ラベリングプロセスが完了したら、安全な S3 バケットからラベル付けされたデータを取得し、トレーニングモデルの仕事に取り掛かることができます。

詳細はこちら
現在、Amazon SageMaker Ground Truth Plus はバージニア北部 (us-east-1) リージョンでご利用いただけます。

詳細はこちら。

原文はこちらです。