发布于: Aug 24, 2023
我们很高兴地宣布推出 Amazon SageMaker Profiler 的预览版,这是一款适用于大型深度学习工作负载的高级可观测性工具。借助这项新功能,您将能够获取与计算硬件相关的精细分析见解,从而优化模型训练性能。
对于为计算机视觉、自然语言处理或基础模型使用案例开发大型深度学习模型的客户来说,所需的计算实例数量非常多,相关成本也非常高。他们需要了解内核活动时间、启动延迟或其他与 GPU/CPU 进程相关的时间表。SageMaker Profiler 可以通过 GPU 和 CPU 利用率指标、高分辨率 GPU/CPU 轨迹图、自定义注释以及对混合精度利用率的可见性来识别优化机会。它使用户能够发现因资源利用不均而导致的瓶颈。它还可以更有效地减少训练期间的开销,并且可以扩展来支持延长分析持续时间以及为每个工作负载分析更多训练实例。这些有助于为数据科学家提供更可靠的见解,同时尽量优化大规模分布式训练工作负载的硬件性能。
Amazon SageMaker Profiler 已在以下使用默认计算实例支持的区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、欧洲地区(法兰克福)和欧洲地区(爱尔兰)。在此预览版推出期间,SageMaker Profiler 将面向支持区域的客户免费提供。