发布于: Sep 21, 2022
今天,我们很高兴地宣布,Amazon SageMaker Autopilot 新增一个训练模式,该模式支持由 AutoGluon 提供支持的模型集成。使用较大的数据集 (<100MB) 时,集成训练模式可快速构建准确率较高的机器学习 (ML) 模型,在 250 次试验中,与当前超参数优化 (HPO) 训练模式相比,速度提升多达 8 倍。Amazon SageMaker Autopilot 可根据您的数据自动构建、训练和调整最佳机器学习模型,同时允许您保持完全控制和可见性。当前 HPO 模式使用超参数值组合,以最大限度地提高单个模型的准确率。但是,当单个模型无法捕获数据的复杂特征时,整合(集成)不同模型的预测结果可以显著提高模型的整体准确率。
Amazon SageMaker Autopilot 中的集成训练模式采用 AutoGluon 来训练若干个基础模型,并使用模型堆叠来将其预测结果整合在一起。此模式支持各种算法,包括 LightGBM、CatBoost、XGBoost、Random Forest、Extra Trees、Linear Models 和基于 PyTorch 和 FastAI 的神经网络。为了评估集成模式相对于 HPO 模式的性能提高幅度,我们使用了多个 OpenML 基准数据集,最大不超过 100MB。结果显示,在 250 次试验(平均时长为 15 分钟到 120 分钟不等)中,与 HPO 模式相比,使用较小数据集(不到 1MB)的集成训练作业在 SageMaker Autopilot 上的作业运行时总体缩短多达 8 倍,而试验次数为 100 次时,比 HPO 模式缩短 5.8 倍。在 250 次试验中,与 HPO 模式相比,使用中等 (1-10MB) 和大型数据集 (10-100MB) 的运行时分别缩短 5 倍和 2.5 倍,准确率提高约 1.9%。
要开始使用,您需要在 SageMaker Studio 控制台中创建 SageMaker Autopilot 实验,然后选择“集成”训练模式,或让 SageMaker Autopilot 根据数据集大小自动推断训练模式。 您可以参考 createAutoMLJob API 参考指南以了解 API 更新,并升级到 SageMaker Studio 的最新版本以使用新集成训练模式。有关此功能的更多信息,请参阅开发人员指南,要了解有关 SageMaker Autopilot 的更多信息,请访问产品页面。