Amazon Web Services ブログ
機械学習の正確性に関する考察
本ブログ記事は、機械学習の正確性とバイアスについての大まかな考えをいくつかまとめたものです。
まず、顔認識トライアルを実施した最近の ACLU ブログ記事に関する意見から始めましょう。ACLU は Rekognition を使って、公開されている 25,000 枚の逮捕写真を用いた顔データベースを構築してから、アメリカ連邦議会の現議員全員の公開写真でデータベースの顔の類似性検索を実行しました。この検索では 535 件中 28 件の誤一致 (信頼水準 80%) が見つかり、これは 5% の誤認 (「偽陽性」とも呼ばれます) 率、95% の 正解率となります。ACLU はデータセット、手法、または詳細な結果を公開していないので、ここでは ACLU が公表した事柄に基づいて判断することしかできませんが、ACLU の主張に関しては以下のように考えています。
- Rekognition における顔認識 API のデフォルト信頼性しきい値は 80% です。これは、広範な一般的ユースケース (ソーシャルメディアで著名人を認識する、または写真アプリでよく似た家族を認識するなど) には適切ですが、公共安全のユースケースには適切ではありません。ACLU が使った 80% の信頼性しきい値は、個人の正確な認識を確実にするには低すぎる値です。このレベルの信頼性では、偽陽性は避けられません。 AWS では、公開されている AWS ドキュメントに記載されているとおり、精度の高い顔の類似性一致が重要となるユースケースには 99% を推奨しています。偽陽性に対する信頼性しきい値の影響を説明するために、AWS は、学究的環境で一般的に使用される 850,000 を超える顔のデータセットを使って顔コレクションを作成し、テストを実施しました。次に、アメリカ連邦議会 (上院および下院) の全議員の公開写真を使い、ACLU ブログと似た方法でこのコレクションの検索を行いました。
信頼性しきい値を 99% (AWS ドキュメントで推奨されている値) に設定した場合、より大きな顔のコーパス (ACLU のテストよりも 30 倍大きいもの) と比較したにもかかわらず、誤認率は 0% に下がりました。これは、公共安全問題に役立てるためにこのテクノロジーを使用する機関にとって、偽陽性 (それらがあった場合) を少なくするためにも、適切な信頼水準を選択することがいかに重要であるかを示しています。
- 実際の公共安全および法執行シナリオでは、絞り込みを行い、人間がそれぞれの判断で迅速にオプションを見直して検討するため (かつ完全に主体的な判断を行わないため)に Amazon Rekognition がほぼ独占的に使用されており、行方不明の子供たちを見つける、人身売買と闘う、または犯罪を防止するために役立っています。 Rekognition は通常、個人を識別することにおける第一歩にすぎません。他のユースケース (ソーシャルメディアなど) では、再確認する同様の必要性がないため、信頼性しきい値を低く設定することができます。
- 信頼性しきい値を低く設定しすぎることに加えて、Rekognition の結果は、非定型的で、それ自体が偏っている顔データベースを使用することによっても大幅に歪められる場合があります。 今回の場合、ACLU は、Rekognition の検索結果の正確性に重大な影響を及ぼした可能性がある犯罪写真の顔データベースを使用しました。
- Rekognition などのクラウドベースの機械学習アプリケーションの利点は、より多くのデータでアルゴリズムを改善し続けることで、アプリケーションも常に改善されているという点です。 AWS のお客様は、これらの改善からすぐさま利益を得ることができます。 AWS では、Rekognition を人、オブジェクト、およびシーンを識別するための最も正確で強力なツールにするという使命に絶えず焦点を当てています。これにはもちろん、結果の中に、正確性に影響を及ぼすバイアスが含まれていないことを確実にすることも含まれています。 AWS はすでに、Rekognition を使って、人身売買と闘う、行方不明の子供たちを家族のもとに帰す、モバイル決済における詐欺行為を低減する、そしてセキュリティを改善することにおいて、お客様と全世界に大きな価値を提供しており、これからも引き続き Rekognition で AWS のお客様と社会全体のお役に立てることを楽しみにしています。
- 機械よりも人のほうが顔と写真を一致させることに長けているという一般的な誤解がありますが、 実際のところ、アメリカ国立標準技術研究所 (National Institute for Standards and Technology、「NIST」) は最近、Rekognition で使用されている最先端のテクノロジーよりも少なくとも 2 年は遅れている顔認識テクノロジーの研究について発表し、これらの古いテクノロジーでさえも、顔を認識する人間の能力を上回ると結論付けました。
誤って解釈された ACLU の結果について最後に言いたいことは、 新しい技術的進歩が実現するときには、私たち全員が現実のものとそうでないものを明確に区別する必要があるということです。食べ物を識別するための機械学習の使用と、顔の一致が法的処置を検討するに値するかどうかを判断するための機械学習の使用は別物です。後者は深刻な問題であり、はるかに高い信頼水準が必要とされます。AWS では今後も、法執行関連の一致には 99% 未満の信頼水準を使用せず、その上で、その一致を各法執行機関にとって理にかなうその他インプットのうちの一つとしてのみ使用することをお客様にお勧めしますが、機械学習は法執行機関を援助することにおいて非常の価値のあるツールです。機能が正しく応用されることについての懸念はあるものの、温度設定を間違えてピザを焦がしてしまう可能性があるからと言ってオーブンを捨てなければならないというわけではありません。しかしながら、法執行機関の公共安全業務を支援するために、それらの機関が設定する温度 (つまり信頼水準) を政府が検討し、指定することも、極めて合理的なアイデアです。