Amazon SageMaker HyperPod

Kurangi waktu untuk melatih model fondasi hingga 40% dan skalakan di lebih dari seribu akselerator AI secara efisien

Apa itu SageMaker HyperPod?

Amazon SageMaker HyperPod menghilangkan pekerjaan berat yang tidak terdiferensiasi yang terlibat dalam pembangunan dan pengoptimalan infrastruktur machine learning (ML). SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi SageMaker, yang membagi beban kerja pelatihan secara otomatis ke lebih dari ribuan akselerator AI sehingga beban kerja dapat diproses secara paralel untuk meningkatkan performa model. SageMaker HyperPod memastikan pelatihan FM Anda tidak terganggu dengan menyimpan pos pemeriksaan secara berkala. Fitur ini secara otomatis mendeteksi kegagalan perangkat keras ketika terjadi, memperbaiki atau mengganti instans yang rusak, dan melanjutkan pelatihan dari pos pemeriksaan terakhir yang disimpan sehingga Anda tidak perlu mengelola proses ini secara manual. Lingkungan yang tangguh memungkinkan Anda untuk melatih model selama berminggu-minggu atau berbulan-bulan dalam pengaturan terdistribusi tanpa gangguan sehingga menghemat waktu pelatihan hingga 40%. SageMaker HyperPod juga sangat dapat disesuaikan, yang memungkinkan Anda menjalankan dan menskalakan beban kerja FM secara efisien dan berbagi kapasitas komputasi antara beban kerja yang berbeda dengan mudah, mulai dari pelatihan skala besar hingga inferensi.

Manfaat SageMaker HyperPod

Pelatihan terdistribusi yang disederhanakan untuk klaster pelatihan besar

Amazon SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi Amazon SageMaker, memungkinkan Anda membagi model dan set data pelatihan secara otomatis di seluruh instans klaster AWS untuk membantu Anda menskalakan beban kerja pelatihan secara efisien.

Penggunaan sumber daya komputasi, memori, dan jaringan klaster yang dioptimalkan

SageMaker HyperPod mendukung manajemen klaster populer dan sistem penjadwalan tugas, seperti Slurm dan Amazon Elastic Kubernetes Service (EKS). Fitur ini memberi Anda pengalaman developer yang unggul, kemampuan untuk mengelola aplikasi terkontainer, penskalaan klaster dinamis, dan integrasi cloud native saat Anda menskalakan pelatihan FM dan beban kerja inferensi. Selain itu, Anda dapat berbagi sumber daya dengan lancar antara pelatihan dan inferensi untuk lebih mengoptimalkan pemanfaatan sumber daya.

Lingkungan pelatihan yang tangguh dan menghilangkan gangguan

SageMaker HyperPod memungkinkan lingkungan pelatihan yang lebih tangguh dengan mendeteksi, mendiagnosis, dan memulihkan kesalahan secara otomatis, sehingga Anda dapat terus melatih FM selama berbulan-bulan tanpa gangguan.

Mulai dengan SageMaker HyperPod

Dokumentasi

Mulai dengan panduan developer langkah demi langkah

Baca dokumentasi

Blog

Memperkenalkan Amazon SageMaker HyperPod

Baca blog pengumuman