Veröffentlicht am: Sep 21, 2022
Heute freuen wir uns, ankündigen zu können, dass Amazon SageMaker Autopilot einen neuen Trainingsmodus besitzt, der durch AutoGluon gestütztes Modell-Ensembling ermöglicht. Bei mäßig großen Datensätzen (< 100 MB) erstellt der Ensemble-Trainingsmodus Machine-Learning-Modelle (ML) mit hoher Genauigkeit: bis zu 8-mal schneller als der aktuelle HPO-Trainingsmodus (Hyperparameteroptimierung) mit 250 Versuchen. Amazon SageMaker Autopilot erstellt, trainiert und optimiert automatisch die besten ML-Modelle basierend auf Ihren Daten und ermöglicht Ihnen gleichzeitig die vollständige Kontrolle und Sichtbarkeit. Der aktuelle HPO-Modus verwendet eine Kombination aus Hyperparameterwerten, um die Genauigkeit eines einzelnen Modells zu maximieren. In Fällen, in denen ein einziges Modell die komplexen Datenmerkmale jedoch nicht erfassen kann, kann die Kombination (Ensembling) der Prognosen verschiedener Modelle die Gesamtgenauigkeit des Modells beträchtlich verbessern.
Der Ensemble-Trainingsmodus in Amazon SageMaker Autopilot verwendet AutoGluon, um mehrere Basismodelle zu trainieren und deren Vorhersagen durch Modellstapelung zu kombinieren. Es unterstützt eine breite Palette von Algorithmen, darunter LightGBM, CatBoost, XGBoost, Random Forest, Extra Trees, lineare Modelle und neuronale Netze auf der Grundlage von PyTorch und FastAI. Zur Bewertung der Performance-Verbesserungen bei Verwendung des Ensemble- im Vergleich zum HPO-Modus verwendeten wir mehrere OpenML Benchmark-Datensätze bis 100 MB. Die Ergebnisse zeigen, dass die Laufzeit von Ensemble-Trainingsaufträgen mit kleineren Datensätzen (weniger als 1 MB) im Vergleich zum HPO-Modus mit 250 Versuchen um das 8-fache (von durchschnittlich 120 Minuten auf 15 Minuten) und im Vergleich zum HPO-Modus mit 100 Versuchen um das 5,8-fache verbessert wurde. Bei mittleren (1-10 MB) und großen Datensätzen (10-100 MB) wurden Laufzeitverbesserungen um das 5- bzw. 2,5-fache im Vergleich zu HPO 250-Tests erzielt, bei einer um etwa 1,9 % höheren Genauigkeit.
Um einzusteigen, erstellen Sie ein SageMaker Autopilot-Experiment in der SageMaker Studio-Konsole und wählen Sie den Trainingsmodus „Ensembling“, oder lassen Sie SageMaker Autopilot den Trainingsmodus automatisch basierend auf der Datensatzgröße wählen. Aktualisierungen zur API finden Sie im API-Referenzhandbuch zur createAutoMLJob API, und Sie können auf die neueste Version von SageMaker Studio aktualisieren, um den neuen Ensemble-Trainingsmodus zu verwenden. Weitere Informationen zu dieser Funktion finden Sie im Entwicklerhandbuch. Mehr über SageMaker Autopilot erfahren Sie auf der Produktseite.