AWS Batch 现在支持使用多节点并行任务在 Amazon EKS 上进行群组调度

发布于: 2024年7月11日

今天,AWS 宣布在 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 AWS Batch 中全面推出多节点并行 (MNP) 任务。借助 AWS Batch MNP 任务,您可以运行紧密耦合的高性能计算 (HPC) 应用程序,例如训练多层 AI/ML 模型。AWS Batch 可以帮助您启动、配置和管理您在 Amazon EKS 集群中的节点,无需手动干预。

您可以使用 RegisterJobsDefinition API 或 AWS Batch 管理控制台的任务定义部分配置 MNP 任务。借助 MNP 任务,您可以在跨越多个 Amazon Elastic Compute Cloud (Amazon EC2) 实例的 Amazon EKS 工作负载上运行 AWS Batch。AWS Batch MNP 任务支持任何基于 IP 的实例间通信框架,例如 NVIDIA Collective Communications Library (NCCL)、Gloo、消息传递接口 (MPI) 或 Unified Collective Communication (UCC),以及机器学习和并行计算库(例如 PyTorch 和 Dask)。有关更多信息,请参阅 AWS Batch 用户指南中的“多节点并行任务”页面。

AWS Batch 支持开发人员、科学家和工程师高效地运行批处理,以进行任何规模的 ML 模型训练、模拟和分析。多节点并行任务可在提供 AWS Batch 的所有 AWS 区域中使用。