投稿日: Nov 12, 2021
Amazon SageMaker Autopilot は、完全な制御と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的に構築、トレーニング、および調整します。SageMaker Autopilot は、モデル構築の一環として、データのクリーニング、準備、前処理を自動的に行い、機械学習モデルのパフォーマンスを最適化します。本日より、Autopilot はいくつかの追加データインサイトを生成し、データの質を向上させることで、ビジネスニーズをよりよく満たす高品質なモデルを構築することができます。
現在生成されている最重要データインサイトには、予測力、特徴間の相互関係、ターゲットのカラムディストリビューション、重複行、異常行、不均衡なクラスディストリビューション、多クラス分類のターゲットレスポンスのカーディナリティなどがあります。これらのインサイトは、Autopilot が生成したデータ調査ノートブックに表示され、トレーニングプロセスが進行する前の早い段階で利用することができます。これらのインサイトには、可能な限り、検出されたデータ品質の問題を解決するためのレコメンデーションも含まれていますが、その前に、データの自動前処理やキュレートを試みます。