Amazon SageMaker HyperPod

將基礎模型訓練時間縮短高達 40%,並有效擴展至上千種 AI 加速器

什麼是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。

SageMaker HyperPod 的優勢

Amazon SageMaker HyperPod 已使用 Amazon SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,有助您有效率地擴展訓練工作負載。
SageMaker HyperPod 支援熱門的叢集管理和工作排程系統,例如 Slurm 和 Amazon Elastic Kubernetes Service (EKS)。當您擴展 FM 訓練和推論工作負載時,它可為您提供卓越的開發人員體驗、管理容器化應用程式、動態叢集擴展和雲端原生整合的能力。此外,您還可以在訓練和推論之間無縫共用資源,以進一步最佳化資源使用率。
SageMaker HyperPod 會透過自動偵測、診斷和復原故障,支援更具彈性的訓練環境,讓您可連續數月不中斷地訓練 FM。