張貼日期: Oct 4, 2019
Amazon SageMaker 現在支援 ml.p3dn.24xlarge,這是最強大的 P3 執行個體,已針對機器學習應用程式進行優化。這個執行個體提供更快速的網路,有助於除去資料傳輸瓶頸,並優化 GPU 使用率,為訓練深度學習模型提供最大效能。
ml.p3dn.24xlarge 執行個體可提供最高 100 Gbps 的網路輸送量,96 個自訂 Intel® Xeon® Scalable (Skylake) vCPU,8 個具有 32 GB 記憶體的 NVIDIA® V100 Tensor Core GPU、每秒 300 GB 的 NVLINK GPU 互連,以及 1.8 TB 的本機 NVMe 型 SSD 儲存。與第二大的 P3 執行個體相比,網路輸送量增加 4 倍,而且搭配更快速的處理器和本機 NVMe 型 SSD 儲存,可讓開發人員更有效率地將機器學習訓練任務分散到多個 ml.p3dn.24xlarge 執行個體,消除資料傳輸和預先處理的瓶頸。
下面是 Amazon SageMaker ml.p3dn.24xlarge 執行個體與現有 Amazon SageMaker ML P3 執行個體的比較。
ML 執行個體類型 | GPU – Tesla V100 | GPU 端對端 | GPU 記憶體 (GB) | vCPU | 記憶體 (GB) | 網路頻寬 | EBS 頻寬 | 本地執行個體儲存體 |
---|---|---|---|---|---|---|---|---|
ml.p3.2xlarge | 1 | 無 | 16 | 8 (Broadwell) | 61 | 高達 10 Gbps | 1.5 Gbps | 無 |
ml.p3.8xlarge | 4 | NVLink | 64 | 32 (Broadwell) | 244 | 10 Gbps | 7 Gbps | 無 |
ml.p3.16xlarge | 8 | NVLink | 128 | 64 (Broadwell) | 488 | 25 Gbps | 14 Gbps | 無 |
ml.p3dn.24xlarge | 8 | NVLink | 256 | 96 (Skylake) | 768 | 100 Gbps | 14 Gbps | 2 x 900 GB NVMe SSD |