发布于: Oct 4, 2019
Amazon SageMaker 现在支持 ml.p3dn.24xlarge 实例,它是最强大的 P3 实例,针对机器学习应用程序进行了优化。该实例提供更快的联网功能,有助于消除数据传输瓶颈并优化 GPU 利用率,从而为训练深度学习模型提供最佳性能。
ml.p3dn.24xlarge 实例提供高达 100Gbps 的联网吞吐量,96 个定制 Intel® Xeon® Scalable (Skylake) vCPU,8 个 NVIDIA® V100 Tensor Core GPU,每个具有 32GB 内存,300GB/s NVLINK GPU 互连,以及 1.8TB 本地 NVMe SSD 存储。与下一代最大的 P3 实例相比,该实例的网络吞吐量提高了 4 倍,它具有更快的处理器和本地 NVMe SSD 存储,将使开发人员能够在数个 ml.p3dn.24xlarge 实例之间高效地分配其机器学习训练作业,并消除数据传输和预处理瓶颈。
下面是 Amazon SageMaker ml.p3dn.24xlarge 实例与现有 Amazon SageMaker ML P3 实例的对比结果。
ML 实例类型 | GPUs – Tesla V100 | GPU 对等 | GPU 内存 (GB) | vCPU | 内存 (GB) | 网络带宽 | EBS 带宽 | 本地实例存储 |
---|---|---|---|---|---|---|---|---|
ml.p3.2xlarge | 1 | 不适用 | 16 | 8 (Broadwell) | 61 | 最高 10Gbps | 1.5Gbps | 不适用 |
ml.p3.8xlarge | 4 | NVLink | 64 | 32 (Broadwell) | 244 | 10Gbps | 7Gbps | 不适用 |
ml.p3.16xlarge | 8 | NVLink | 128 | 64 (Broadwell) | 488 | 25Gbps | 14Gbps | 不适用 |
ml.p3dn.24xlarge | 8 | NVLink | 256 | 96 (Skylake) | 768 | 100Gbps | 14Gbps | 2 个 900GB NVMe SSD |