为什么选择 Amazon EC2 UltraClusters?
Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML 加速器(如 AWS Trainium),以按需访问超级计算机。它们通过简单的即用即付使用模式,使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能,无需任何设置或维护成本。Amazon EC2 P5 实例、Amazon EC2 P4d 实例和 Amazon EC2 Trn1 实例都部署在 Amazon EC2 UltraCluster 中。
EC2 UltraCluster 由数千个加速 EC2 实例组成,这些实例都位于给定的 AWS 可用区内,并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter (EFA) 网络进行互连。EC2 UltraCluster 还提供对适用于 Lustre 的 Amazon FSx 的访问,这是一种完全托管的共享存储,建立在最受欢迎的高性能并行文件系统上,可按需大规模快速处理海量数据集,延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。
Amazon EC2 P5 和 Trn1 实例使用第二代 EC2 UltraCluster 架构,该架构提供的网络架构可实现跨集群的更少跳数、更低延迟和更大规模。
优势
功能
高性能网络
高性能存储
支持的实例
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。