亚马逊AWS官方博客

宣布推出 AWS Parallel Computing Service,可运行几乎任何规模的 HPC 工作负载



今天,我们宣布推出 AWS Parallel Computing Service(AWS PCS),这是一项新的托管服务,可帮助客户设置并管理高性能计算(HPC)集群,使他们能够在 AWS 上无缝运行几乎任何规模的模拟。使用 Slurm 调度器,客户可以在熟悉的 HPC 环境中工作,从而缩短取得结果的时间,而不必担心基础设施问题。

2018 年 11 月,我们推出了 AWS ParallelCluster,这是一款 AWS 支持的开源集群管理工具,可帮助您在 AWS 云中部署并管理 HPC 集群。借助 AWS ParallelCluster,客户还可以快速构建并部署概念验证和生产 HPC 计算环境。客户可以使用从开源程序包安装的 AWS ParallelCluster 命令行界面APIPython 库和用户界面。客户负责更新,可能需要完成拆除和重新部署集群的工作。但是,许多客户要求我们提供完全托管的 AWS 服务,以消除构建和运行 HPC 环境方面的运营作业。

AWS PCS 简化了由 AWS 托管的 HPC 环境,可通过 AWS 管理控制台、AWS SDK 和 AWS 命令行界面(AWS CLI)进行访问。您的系统管理员可以使用他们的计算和存储配置、身份和作业分配偏好创建托管的 Slurm 集群。AWS PCS 使用 Slurm(一种高度可扩展、容错的作业调度器,适用于各种 HPC 客户)来调度和编排模拟。科学家、研究人员和工程师等最终用户可以登录 AWS PCS 集群来运行并管理 HPC 作业、在虚拟桌面上使用交互式软件以及访问数据。您可以将他们的工作负载快速引入 AWS PCS,无需花费大量精力移植代码。

您可以使用完全托管的 NICE DCV 远程桌面进行远程可视化,并访问作业遥测或应用程序日志,使专家能够集中管理您的 HPC 工作流。

AWS PCS 专为计算流体动力学、天气建模、有限元分析、电子设计自动化和储层模拟等领域的各种传统和新兴计算或数据密集型工程和科学工作负载而设计,使用熟悉的方法准备、执行并分析模拟和计算。

AWS Parallel Computing Service 入门
要试用 AWS PCS,您可以使用 AWS 文档中的创建简单集群的教程。首先,在您要试用 AWS PCS 的 AWS 区域的账户中,使用 AWS CloudFormation 模板创建一个虚拟私有云(VPC),在 Amazon Elastic File System(Amazon EFS)中创建共享存储。要了解更多信息,请访问 AWS 文档中的创建 VPC创建共享存储

1.创建集群
AWS PCS 控制台中,选择创建集群,这是一种用于管理资源和运行工作负载的永久资源。

接下来,输入您的集群名称并选择 Slurm 调度器的控制器大小。您可以选择小型(最多 32 个节点和 256 个作业)、中型(最多 512 个节点和 8192 个作业)或大型(最多 2048 个节点和 16384 个作业)来限制集群工作负载。在联网部分中,选择您创建的 VPC、用于启动集群的子网以及应用于您的集群的安全组。

或者,您可以设置 Slurm 配置,例如计算节点缩减之前的空闲时间、启动的计算节点上的 Prolog 和 Epilog 脚本目录以及 Slurm 使用的资源选择算法参数。

选择创建集群。预置集群需要一些时间。

2.创建计算节点组
创建集群后,您可以创建计算节点组,这是 Amazon Elastic Compute Cloud(Amazon EC2)实例的虚拟集合,AWS PCS 使用该集合来提供对集群的交互式访问或在集群中运行作业。定义计算节点组时,需要指定常见特征,例如 EC2 实例类型、最小和最大实例数、目标 VPC 子网、亚马逊机器映像(AMI)、购买选项和自定义启动配置。计算节点组需要一个实例配置文件才能将 AWS Identity and Access Management(IAM)角色传递给 EC2 实例,并需要一个 EC2 启动模板以供 AWS PCS 用于配置其启动的 EC2 实例。要了解更多信息,请访问 AWS 文档中的创建启动模板创建实例配置文件

要在控制台中创建计算节点组,请转到您的集群并选择计算节点组选项卡和创建计算节点组按钮。

您可以创建两个计算节点组:一个供最终用户访问的登录节点组和一个用于运行 HPC 作业的作业节点组。

要创建运行 HPC 作业的计算节点组,请输入计算节点名称并选择先前创建的 EC2 启动模板、IAM 实例配置文件和子网,进而启动集群 VPC 中的计算节点。

接下来,选择启动计算节点时使用的首选 EC2 实例类型以及用于扩缩的最小和最大实例数。我选择了 hpc6a.48xlarge 实例类型,最多可以扩展到八个实例。对于登录节点,您可以选择一个较小的实例,例如一个 c6i.xlarge 实例。如果实例类型支持,您也可以选择按需竞价型 EC2 购买选项。或者,您可以选择特定的 AMI。

选择创建。预置计算节点组需要一些时间。要了解更多信息,请访问 AWS 文档中的创建计算节点组以运行作业为登录节点创建计算节点组

3.创建并运行您的 HPC 作业
创建计算节点组后,您向队列提交作业以运行该作业。在 AWS PCS 根据可用预置容量将其安排在计算节点组上运行之前,该作业将保持在队列中。每个队列都与一个或多个计算节点组相关联,这为进行处理提供了必要的 EC2 实例。

要在控制台中创建队列,请转到您的集群并选择队列选项卡和创建队列按钮。

输入您的队列名称并选择分配给队列的计算节点组。

选择创建,等待队列创建完成。

当登录计算节点组处于活动状态时,您可以使用 AWS Systems Manager 连接到其创建的 EC2 实例。前往 Amazon EC2 控制台并选择您的登录计算节点组的 EC2 实例。要了解更多信息,请访问 AWS 文档中的创建队列以提交并管理作业连接到您的集群

要使用 Slurm 运行作业,您需要准备一个指定作业要求的提交脚本,然后使用 sbatch 命令将其提交到队列中。通常,这是在共享目录中完成的,因此登录和计算节点有用于访问文件的公共空间。

您还可以使用 Slurm 在 AWS PCS 中运行消息传递接口(MPI)作业。要了解更多信息,请访问 AWS 文档中的使用 Slurm 运行单节点作业使用 Slurm 运行多节点 MPI 作业

您可以连接完全托管的 NICE DCV 远程桌面进行可视化。首先,使用适用于 AWS GitHub 存储库的 HPC Recipes 中的 CloudFormation 模板。

在此示例中,我使用 OpenFOAM motorBike 模拟来计算摩托车和骑手周围的稳定气流。该模拟使用三个 hpc6a 实例的 288 个内核运行。登录 DCV 实例的 Web 界面后,可以在 ParaView 会话中对输出进行可视化。

最后,在使用所创建的集群和节点组完成 HPC 作业后,应删除您创建的资源,以避免不必要的费用。要了解更多信息,请访问 AWS 文档中的删除您的 AWS 资源

注意事项
关于这项功能,下面的这些信息您应有所了解:

  • Slurm 版本 – AWS PCS 最初支持 Slurm 23.11,并提供旨在让客户在添加新版本后升级其 Slurm 主要版本的机制。此外,AWS PCS 旨在使用补丁版本自动更新 Slurm 控制器。要了解更多信息,请访问 AWS 文档中的 Slurm 版本
  • 容量预留 – 您可以使用按需容量预留在特定可用区和特定期限内预留 EC2 容量,以确保在需要时有必要的计算容量可用。要了解更多信息,请访问 AWS 文档中的容量预留
  • 网络文件系统 – 您可以附加网络存储卷,用于写入和访问数据和文件,包括适用于 NetApp ONTAP 的 Amazon FSx适用于 OpenZFS 的 Amazon FSxAmazon File Cache 以及 Amazon EFS 和适用于 Lustre 的 Amazon FSx。您也可以使用自我管理的卷,例如 NFS 服务器。要了解更多信息,请访问 AWS 文档中的网络文件系统

现已推出
AWS Parallel Computing Service 现已在美国东部(弗吉尼亚州北部)、AWS 美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(斯德哥尔摩)区域推出。

AWS PCS 启动您的 AWS 账户中的所有资源。将按相应方式向您收取这些资源的费用。有关更多信息,请参阅 AWS PCS 定价页面

您可以尝试一下该功能,并将反馈发送至 AWS re:Post for AWS PCS 或通过您常用的 AWS Support 联系人进行发送。

Channy

附言:特别感谢 AWS 首席开发者宣传官 Matthew Vaughn 在创建 HPC 测试环境方面所做的贡献。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。