投稿日: Sep 21, 2022
本日、Amazon SageMaker Autopilot に、AutoGluon を利用してモデルのアンサンブルをサポートする、新しいトレーニングモードが追加されたことを発表します。中大規模のデータセット (< 100MB) の場合、アンサンブルトレーニングモードでは、高精度の機械学習 (ML) モデルを迅速に構築します。これは、250 回のトライアルを行う現在のハイパーパラメーター最適化 (HPO) トレーニングモードよりも最大 8 倍高速です。Amazon SageMaker Autopilot は、完全な制御と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的に構築、トレーニング、およびチューニングします。現在の HPO モードは、ハイパーパラメーター値の組み合わせを使用して、単一モデルの精度を最大限に向上させます。ただし、単一のモデルがデータの複雑な特性を捉えることができない場合は、さまざまなモデルからの予測を組み合わせる (またはアンサンブルする) ことで、モデル全体の精度を大幅に向上させることができます。
Amazon SageMaker Autopilot 内のアンサンブルトレーニングモードは、AutoGluon を使用して複数の基本モデルをトレーニングし、モデルスタッキングを使用してそれらの予測を組み合わせます。LightGBM、CatBoost、XGBoost、ランダムフォレスト、エクストラツリー、線形モデル、PyTorch と FastAI に基づくニューラルネットワークなど、幅広いアルゴリズムをサポートしています。HPO モードに対するアンサンブルモードのパフォーマンスの向上を評価するために、最大 100 MB の複数の OpenML ベンチマークデータセットを使用しました。結果によると、小規模なデータセット (1 MB 未満) でのアンサンブルトレーニングジョブでは、HPO モードでの250 回のトライアル (平均 120 分から 15 分) と比較して、全体的な SageMaker Autopilot ジョブランタイムが最大 8 倍、HPOモードでの 100回のトライアルと比較すると、5.8倍改善されました。中 (1~10 MB) および大規模なデータセット (10~100 MB) では、HPO 250 回のトライアルに対してランタイムが 5 倍および 2.5 倍向上し、精度は約 1.9% 高くなりました。
開始するには、SageMaker Studio コンソールで SageMaker Autopilot 実験を作成し、「アンサンブル」トレーニングモードを選択するか、SageMaker Autopilot がデータセットのサイズに基づいてトレーニングモードを自動的に推測できるようにします。 API の更新については createAutoMLJob API リファレンスガイドを参照してください。最新バージョンの SageMaker Studio にアップグレードして、新しいアンサンブルトレーニングモードを使用できます。この機能の詳細については、開発者ガイドを参照してください。SageMaker Autopilot の詳細については、製品ページにアクセスしてください。