UltraClusters من سحابة الحوسبة المرنة لـ Amazon (Amazon EC2)

قم بتشغيل تطبيقات HPC وML على نطاق واسع

ما سبب أهمية Amazon EC2 UltraClusters؟

يمكن أن تساعدك مجموعات Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster في التوسع إلى آلاف وحدات معالجة الرسومات أو شرائح ML AI المصممة لهذا الغرض، مثل AWS Trainium، للوصول عند الطلب إلى كمبيوتر عملاق. إنها تضفي الطابع الديمقراطي على الوصول إلى أداء فئة الحوسبة الفائقة لمطوري تعلم الآلة (ML) والذكاء الاصطناعي المولّد والحوسبة عالية الأداء (HPC) من خلال نموذج استخدام الدفع مقابل الاستخدام دون أي تكاليف إعداد أو صيانة. تتضمن مثيلات Amazon EC2 التي يتم نشرها في مجموعات EC2 UltraCluster مثيلات P5en وP5e وP5 وP4d وTrn2 وTrn1.

تتكون EC2 UltraClusters من آلاف مثيلات EC2 المُسرَّعة التي توجد في نفس الموقع في منطقة توافر AWS معينة ومترابطة باستخدام شبكات Elastic Fabric Adapter‏ (EFA) في شبكة غير قابلة للحظر بحجم بيتابت. توفر EC2 UltraClusters أيضًا إمكانية الوصول إلى Amazon FSx for Lustre، وهي وحدة تخزين مشتركة مُدارة بالكامل مبنية على نظام الملفات المتوازي الأكثر شيوعًا وعالي الأداء لمعالجة مجموعات البيانات الضخمة بسرعة عند الطلب وعلى نطاق واسع مع زمن انتقال أقل من مللي ثانية. توفر EC2 UltraClusters إمكانات قابلة للتوسعة لتدريب ML الموزَّع وأعباء عمل الحوسبة عالية الأداء (HPC) المقترنة بإحكام.

الفوائد

تساعدك EC2 UltraClusters على تقليل أوقات التدريب ووقت الحل من أسابيع إلى بضعة أيام فقط. يساعدك هذا على التكرار بوتيرة أسرع والحصول على تطبيقات التعلم العميق (DL) والذكاء الاصطناعي المولّد وتطبيقات الحوسبة عالية الأداء (HPC) في السوق بسرعة أكبر.

تتكون EC2 UltraClusters من آلاف مثيلات EC2 المُسرَّعة التي توجد في نفس الموقع في منطقة توافر AWS معينة ومترابطة باستخدام شبكات Elastic Fabric Adapter‏ (EFA) في شبكة غير قابلة للحظر بحجم بيتابت. إنها تمكنك من الوصول عند الطلب إلى العديد من وحدات إكسافلوب من الحوسبة المُسرَّعة. 

يتم دعم EC2 UltraClusters في قائمة متزايدة من مثيلات EC2 وتمنحك المرونة لاختيار خيار الحوسبة الصحيح لتحقيق أقصى قدر من الأداء مع السيطرة على التكاليف لأعباء عملك.

المزايا

شبكات عالية الأداء

يتم ربط مثيلات EC2 التي تم نشرها في EC2 UltraClusters بشبكات EFA لتحسين الأداء لأحمال العمل التدريب الموزعة وأحمال عمل HPC المقترنة بإحكام. توفِّر مثيلات P5en وP5e وP5 وTrn2 ما يصل إلى 3200 جيجابت في الثانية؛ وتوفر مثيلات Trn1 ما يصل إلى 1600 جيجابت في الثانية؛ وتوفر مثيلات P4d ما يصل إلى 400 جيجابت في الثانية من شبكات EFA. تقترن EFA أيضًا بـ NVIDIA GPUDirect RDMA‏ (P5en, P5e, P5, P4d) وNeuronLink‏ (Trn2, Trn1) لتمكين الاتصال بين المُسرِّعات بزمن انتقال منخفض بين الخوادم مع تجاوز نظام التشغيل.

وحدة التخزين عالية الأداء

EC2 UltraClusters تستخدم FSx for Lustre، وهي وحدة تخزين مشتركة مُدارة بالكامل مبنية على نظام الملفات المتوازي عالي الأداء الأكثر شيوعًا. باستخدام FSx for Lustre، يمكنك معالجة مجموعات البيانات الضخمة بسرعة عند الطلب وعلى نطاق واسع، وتوفير زمن انتقال أقل من مللي ثانية. تم تحسين خصائص زمن الانتقال المنخفض ومعدل النقل الخاص بـ FSx for Lustre لأحمال عمل التعلم العميق (DL) والذكاء الاصطناعي المولّد والحوسبة عالية الآداء (HPC) على EC2 UltraClusters. تحافظ FSx for Lustre على وحدات معالجة الرسومات (GPUs) وشرائح الذكاء الاصطناعي (AI) في EC2 UltraClusters التي يتم تغذيتها بالبيانات، مما يؤدي إلى تسريع أعباء العمل الأكثر تطلبًا. تشمل أعباء العمل هذه تدريب نماذج اللغة الكبيرة (LLM)، واستدلال الذكاء الاصطناعي المولّد، والتعلم العميق (DL)، وعلم الجينوم، ونمذجة المخاطر المالية. يمكنك أيضًا الوصول إلى مساحة تخزين افتراضية غير محدودة وفعالة من حيث التكلفة باستخدام خدمة التخزين البسيطة في Amazon‏ (Amazon S3).

المثيل المدعوم

بدعم من شرائح AWS Trainium2 AI، توفر مثيلات Trn2 أداءً أفضل في الأسعار بنسبة تصل إلى 30-40% مقارنة بالمثيلات المماثلة القائمة على وحدة معالجة الرسومات (GPU).

تعرف على مزيد

بدعم من وحدات معالجة الرسومات NVIDIA H200 Tensor Core GPUs، توفر مثيلات P5en وP5e أعلى أداء في Amazon EC2 لتدريب تعلم الآلة وتطبيقات الحوسبة عالية الآداء (HPC).

تعرف على مزيد

بدعم من وحدات معالجة الرسومات NVIDIA A100 Tensor Core GPUs، توفر مثيلات P5 أعلى أداء في Amazon EC2 لتدريب تعلم الآلة وتطبيقات الحوسبة عالية الآداء (HPC).

تعرّف على المزيد

بدعم من وحدات معالجة الرسومات NVIDIA A100 Tensor Core GPUs، توفر مثيلات P4d أداءً عاليًا لتدريب تعلم الآلة (ML) وتطبيقات الحوسبة عالية الآداء (HPC).

تعرّف على المزيد

بدعم من شرائح الذكاء الاصطناعي AWS Trainium AI، تم تصميم مثيلات Trn1 خصيصًا لتدريب تعلم الآلة عالي الأداء. إنها توفر ما يصل إلى 50% في تكلفة التدريب مقارنة بمثيلات EC2 المماثلة.

تعرّف على المزيد