Amazon SageMaker HyperPod

ปรับขนาดและเร่งการพัฒนาโมเดล AI ช่วยสร้างผ่านตัวเร่งความเร็ว AI หลายพันตัว

SageMaker HyperPod คืออะไร

Amazon SageMaker HyperPod ขจัดภาระงานหนักที่ไม่มีความแตกต่างซึ่งเกี่ยวข้องในการสร้างโมเดล AI ช่วยสร้าง ช่วยปรับขนาดงานการพัฒนาโมเดลอย่างรวดเร็ว เช่น การฝึก การปรับแต่ง หรือการอนุมานในคลัสเตอร์ตัวเร่งความเร็ว AI หลายร้อยหรือหลายพันตัว SageMaker HyperPod ช่วยให้สามารถบริหารจัดการแบบรวมศูนย์สำหรับงานพัฒนาโมเดลทั้งหมดของคุณ ทำให้คุณมองเห็นและควบคุมได้อย่างเต็มที่ว่างานต่าง ๆ จะได้รับความสำคัญอย่างไร รวมไปถึงทรัพยากรการประมวลผลจะได้รับการจัดสรรให้กับแต่ละงานอย่างไร ช่วยให้คุณใช้ GPU และ AWS Trainium ของคลัสเตอร์ของคุณได้สูงสุด และเร่งนวัตกรรมได้

ด้วย SageMaker HyperPod คุณสามารถกระจายและจัดเวิร์กโหลดการฝึกของคุณให้ครอบคลุมตัวเร่งความเร็วทั้งหมดได้อย่างมีประสิทธิภาพ SageMaker HyperPod จะใช้การกำหนดค่าการฝึกที่ดีที่สุดโดยอัตโนมัติสำหรับรุ่นยอดนิยมที่มีเผยแพร่สู่สาธารณะ เพื่อช่วยให้คุณบรรลุประสิทธิภาพที่เหมาะสมที่สุดได้อย่างรวดเร็ว นอกจากนี้ ยังติดตามตรวจสอบคลัสเตอร์ของคุณอย่างต่อเนื่องเพื่อดูข้อผิดพลาดของโครงสร้างพื้นฐาน ซ่อมแซมปัญหาโดยอัตโนมัติ และกู้คืนเวิร์กโหลดของคุณโดยไม่ต้องมีการแทรกแซงจากมนุษย์ ทั้งหมดนี้ช่วยให้คุณประหยัดเวลาในการฝึกได้ถึง 40%

ประโยชน์ของ SageMaker HyperPod

นวัตกรรมการกำกับดูแลงาน SageMaker HyperPod มอบการมองเห็นและการควบคุมแบบเต็มรูปแบบในการจัดสรรทรัพยากรการประมวลผลในงานการพัฒนาโมเดล AI ช่วยสร้าง เช่น การฝึกอบรมและการอนุมาน SageMaker HyperPod จัดการคิวงานโดยอัตโนมัติ ช่วยให้มั่นใจได้ว่างานที่สำคัญที่สุดจะได้รับความสำคัญและเสร็จสิ้นตรงเวลาและไม่เกินงบประมาณ ขณะเดียวกันก็ใช้ทรัพยากรการประมวลผลอย่างมีประสิทธิภาพมากขึ้นเพื่อลดต้นทุนการพัฒนาโมเดลได้มากถึง 40%
ด้วยสูตร SageMaker HyperPod นักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่มีทักษะทุกระดับจะได้รับประโยชน์จากประสิทธิภาพที่ล้ำสมัยขณะเริ่มต้นด้วยการฝึกอบรมและปรับแต่งโมเดล AI ช่วยสร้างที่พร้อมใช้งานสาธารณะได้ภายในไม่กี่นาที SageMaker HyperPod ยังมีเครื่องมือการทดลองและข้อมูลการสังเกตในตัวเพื่อช่วยคุณปรับปรุงประสิทธิภาพของโมเดล
SageMaker HyperPod ช่วยให้คุณแบ่งโมเดลและชุดข้อมูลการฝึกอบรมของคุณออกเป็นอินสแตนซ์คลัสเตอร์ AWS ได้โดยอัตโนมัติ เพื่อช่วยให้คุณปรับขนาดเวิร์กโหลดการฝึกได้อย่างมีประสิทธิภาพ ช่วยให้คุณเพิ่มประสิทธิภาพงานการฝึกของคุณสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ นอกจากนี้ยังปรับปรุงจุดตรวจสอบโมเดลผ่านสูตรด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ เพื่อให้มั่นใจได้ว่ามีค่าใช้จ่ายคงที่น้อยที่สุดระหว่างการฝึก
SageMaker HyperPod มอบสภาพแวดล้อมที่ยืดหยุ่นสำหรับการพัฒนาโมเดลด้วยการตรวจจับ วินิจฉัย และกู้คืนจากความผิดพลาดของโครงสร้างพื้นฐานโดยอัตโนมัติ ช่วยให้คุณสามารถรันเวิร์กโหลดการพัฒนาโมเดลได้อย่างต่อเนื่องนานหลายเดือนโดยไม่หยุดชะงัก

แนะนำการกำกับดูแลงานใน SageMaker HyperPod

เพิ่มการใช้ประโยชน์สูงสุดและให้มองเห็นทรัพยากรการประมวลผลได้ครบถ้วน ขณะเดียวกันก็ลดต้นทุนได้ด้วย

เรียนรู้เพิ่มเติม