مثيلات Amazon EC2 Trn1

تدريب عالي الأداء وفعال من حيث التكلفة لنماذج الذكاء الاصطناعي المولّد

ما سبب أهمية مثيلات Amazon EC2 Trn1؟

صُمِّمت مثيلات Amazon Elastic Compute Cloud (EC2) Trn1، المدعومة برقائق AWS Trainium، خصيصًا للتدريب على التعلم العميق عالي الأداء (DL) لنماذج الذكاء الاصطناعي المولّد، بما في ذلك نماذج اللغات الكبيرة (LLMs) ونماذج الانتشار الكامنة (latent diffusion). توفر مثيلات Trn1 توفيرًا يصل إلى 50% في تكلفة التدريب مقارنة بمثيلات Amazon EC2 المماثلة الأخرى. يمكنك استخدام مثيلات Trn1 لتدريب نماذج التعلم العميق التي تشمل أكثر من 100 مليار مَعلَمة (100B+) ونماذج الذكاء الاصطناعي المولّد عبر مجموعة واسعة من التطبيقات، مثل تلخيص النص وإنشاء الأكواد والإجابة على الأسئلة وإنشاء الصور والفيديو والتوصية واكتشاف الاحتيال.

تساعد AWS Neuron SDK المطورين على تدريب النماذج على AWS Trainium (ونشر النماذج على رقائق AWS Inferentia). وهي تتكامل أصلاً مع أطر مثل PyTorch وTensorFlow، بحيث يمكنك الاستمرار في استخدام الأكواد الحالية وسير العمل لتدريب النماذج على مثيلات Trn1. للتعرف على دعم Neuron الحالي لأطر ومكتبات تعلّم الآلة (ML) وبنيات النماذج وتحسينات الأجهزة، راجع وثائق Neuron.

نقدم لكم مثيلات Amazon EC2 Trn1 التي تعمل من خلال معالجات AWS Trainium

الفوائد

صُمِّمت مثيلات Trn1 خصيصًا للتعلم العميق (DL) عالي الأداء وتقليل أوقات التدريب من أشهر إلى أسابيع أو حتى أيام. مع تقليل أوقات التدريب، يمكنك التكرار بشكل أسرع وبناء نماذج أكثر ابتكارًا وزيادة الإنتاجية. توفر مثيلات Trn1n وقتًا أسرع للتدريب بنسبة تصل إلى 20% مقارنة بمثيلات Trn1 للنماذج التي تستفيد من زيادة عرض النطاق الترددي للشبكة.

توفر مثيلات Trn1 أداءً فائقًا مع توفير ما يصل إلى 50% من تكلفة التدريب مقارنة بمثيلات Amazon EC2 المماثلة الأخرى.

استخدم AWS Neuron SDK لاستخراج الأداء الكامل لمثيلات Trn1. باستخدام Neuron، يمكنك استخدام أطر تعلم الآلة (ML) الشائعة مثل PyTorch وTensorFlow والاستمرار في استخدام الأكواد الحالية وسير العمل لتدريب النماذج على مثيلات Trn1. راجع أمثلة النماذج الشائعة في وثائق Neuron لبدء استخدام مثيلات Trn1 بسرعة.

تدعم مثيلات Trn1 ما يصل إلى 800 جيجابت في الثانية من النطاق الترددي لشبكة Elastic Fabric Adapter (EFAv2) من الجيل الثاني. تدعم مثيلات Trn1n ما يصل إلى 1600 جيجابت في الثانية من النطاق الترددي لشبكة EFAv2 لتقديم أداء أعلى للنماذج كثيفة الشبكة. يتم نشر كلا المثيلين في EC2 UltraClusters التي تتيح توسيع نطاق ما يصل إلى 30000 شريحة من شرائح Trainium، والتي ترتبط بشبكة غير قابلة للحظر بحجم البيتابت لتوفير 6 إكسافلوب من أداء الحوسبة.

المزايا

يتم تشغيل مثيلات Trn1 بما يصل إلى 16 شريحة AWS Trainium مصممة خصيصًا لتسريع تدريب التعلم العميق (DL) وتقديم ما يصل إلى 3 بيتافلوب من قوة الحوسبة FP16/BF16. تتضمن كل شريحة اثنين من الجيل الثاني من NeuronCores.

لدعم البيانات الفعالة والتوازي النموذجي، يحتوي كل مثيل Trn1 على 512 جيجابايت من ذاكرة التسريع المشتركة (HBM) مع 9.8 تيرابايت/ثانية من إجمالي عرض النطاق الترددي للذاكرة.

لدعم تدريب النماذج كثيفة الشبكات، مثل مزيج الخبراء (MoE) والمحولات التوليدية المدربة مسبقًا (GPT)، يوفر كل مثيل Trn1n ما يصل إلى 1600 جيجابت في الثانية من النطاق الترددي لشبكة EFAv2. يدعم كل مثيل Trn1 ما يصل إلى 800 جيجابت في الثانية من عرض النطاق الترددي EFAv2. يعمل EFAv2 على تسريع التدريب الموزع من خلال تقديم تحسين يصل إلى 50% في أداء الاتصالات الجماعية مقارنة بالجيل الأول من EFA. تدعم هذه المثيلات أيضًا ما يصل إلى 80 جيجابت في الثانية من النطاق الترددي لـ Amazon Elastic Block Store‏ (EBS) وما يصل إلى 8 تيرابايت من مساحة تخزين محرك الأقراص الثابتة المحلي NVMe (SSD) للوصول السريع إلى عبء العمل إلى مجموعات البيانات الكبيرة.

للاتصال السريع بين رقائق Trainium والاتصالات الجماعية المبسطة، تدعم مثيلات Trn1 ما يصل إلى 768 جيجابت/ثانية من NeuronLink، وهو اتصال عالي السرعة وغير قابل للحظر.

لتقديم أداء عالٍ مع تحقيق أهداف الدقة، تم تحسين مثيلات Trn1 لأنواع البيانات FP32 وTF32 وBF16 وFP16 وUINT8 ولنوع البيانات الجديد القابل للتكوين FP8 (cFP8). لدعم الوتيرة السريعة لابتكار التعلم العميق (DL) والذكاء الاصطناعي المولّد، تحتوي مثيلات Trn1 على العديد من الابتكارات التي تجعلها مرنة وقابلة للتمديد لتدريب نماذج التعلم العميق (DL) المتطورة باستمرار. تحتوي مثيلات Trn1 على تحسينات للأجهزة ودعم البرامج لأشكال الإدخال الديناميكية. للسماح بدعم عوامل التشغيل الجديدة في المستقبل، فإنها تدعم عوامل التشغيل المخصصة المكتوبة بلغة C++. كما أنها تدعم التقريب العشوائي، وهي طريقة للتقريب احتمالي لتحقيق أداء عالٍ ودقة أعلى مقارنة بأنماط التقريب القديمة.

شهادات الشركاء والعملاء

في ما يلي بعض الأمثلة عن كيفية تحقيق العملاء والشركاء لأهداف أعمالهم باستخدام مثيلات Amazon EC2 Trn1.

  • Databricks

    تعتمد أكثر من 10000 منظمة حول العالم - بما في ذلك Comcast وCondé Nast وأكثر من 50% من قائمة Fortune 500 - على قواعد البيانات لتوحيد بياناتها وتحليلاتها والذكاء الاصطناعي.

    قام الآلاف من العملاء بتطبيق Databricks على AWS، مما يمنحهم القدرة على استخدام MosaicML لتدريب نماذج التأسيس مُسبقًا وضبطها وتقديمها لمجموعة متنوعة من حالات الاستخدام. تمنحنا AWS Trainium الحجم والأداء العالي اللازمين لتدريب نماذج Mosaic MPT الخاصة بنا، وبتكلفة منخفضة. بينما نقوم بتدريب الجيل القادم من نماذج Mosaic MPT، سيُمكِّننا Trainium2 من بناء النماذج بشكل أسرع، مما يسمح لنا بتزويد عملائنا بنطاق وأداء غير مسبوقين حتى يتمكنوا من طرح تطبيقات الذكاء الاصطناعي في السوق بسرعة أكبر.

    Naveen Rao، نائب رئيس الذكاء الاصطناعي التوليدي (VP of Generative AI)، Databricks
  • Stockmark Co., Ltd

    من خلال مهمة «إعادة اختراع آلية خلق القيمة والنهوض بالإنسانية»، تساعد Stockmark العديد من الشركات على إنشاء وبناء أعمال مبتكرة من خلال توفير أحدث تقنيات معالجة اللغات الطبيعية.

    من خلال 16 عقدة من مثيلات Amazon EC2 Trn1 المدعومة برقائق AWS Trainium، قمنا بتطوير وإصدار stockmark-13b، وهو نموذج لغوي كبير يحتوي على 13 مليار معلمة، تم تدريبه مسبقًا من الصفر على كوربوس ياباني يتكون من 220 مليار رمز. يتضمن الكوربوس أحدث النصوص في مجال الأعمال حتى سبتمبر/أيلول 2023. حقق النموذج أعلى درجة JSQuAD ‏(0.813) في معيار JGLUE (تقييم فهم اللغة اليابانية العامة) مقارنة بالنماذج المماثلة الأخرى. إنه متوفر في Hugging Face Hub ويمكن استخدامه تجاريًا بترخيص MIT. ساعدتنا مثيلات Trn1 على تحقيق خفض بنسبة 20% في تكلفة التدريب مقارنة بمثيلات GPU المكافئة.

    Kosuke Arima، مدير الشئون التقنية (CTO) في شركة Stockmark Co., Ltd.
  • RICOH

    تقدم RICOH حلول مكان العمل وخدمات التحوّل الرقمي المصممة لإدارة وتحسين تدفق المعلومات في الشركات.

    كان الترحيل إلى مثيلات Trn1 بسيطًا جدًا. تمكنا من إكمال تدريب النموذج ذي الـ 13 مليار معلمة في 8 أيام فقط. بناءً على هذا النجاح، نتطلع إلى تطوير وتدريب النموذج ذو 70 مليار معلمة على Trainium ونحن متحمسون لإمكانات هذه الحالات في تدريب نماذجنا بشكل أسرع وأكثر فعالية من حيث التكلفة.

    Yoshiaki Umetsu، مدير مركز تطوير التكنولوجيا الرقمية (Director, Digital Technology Development Center)، RICOH
  • HeliXon

    في HeliXon، نبني الجيل التالي من حلول الذكاء الاصطناعي للعلاجات القائمة على البروتين. نهدف إلى تطوير أدوات الذكاء الاصطناعي التي تمكن العلماء من فك شفرة وظيفة البروتين والتفاعل، واستجواب مجموعات البيانات الجينومية واسعة النطاق لتحديد الهدف، وتصميم علاجات مثل الأجسام المضادة والعلاجات الخلوية. اليوم، نستخدم مكتبات توزيع التدريب مثل FSDP لموازنة التدريب النموذجي على العديد من الخوادم القائمة على وحدة معالجة الرسومات، ولكن هذا لا يزال يستغرق أسابيع لتدريب نموذج واحد. نحن متحمسون لاستخدام مثيلات Amazon EC2 Trn1، التي تتميز بأعلى نطاق ترددي للشبكات (800 جيجابت في الثانية) المتوفر في AWS لتحسين أداء وظائف التدريب الموزعة لدينا وتقليل أوقات تدريب النموذج، مع تقليل تكاليف التدريب لدينا أيضًا.

    Jian Peng، الرئيس التنفيذي (CEO) لشركة Helixon
  • Money Forward, Inc.

    تقدم شركة Money Forward, Inc. خدماتها للشركات والأفراد من خلال منصة مالية مفتوحة ونزيهة.

    أطلقنا خدمة روبوت محادثة بالذكاء الاصطناعي على نطاق واسع على مثيلات Amazon EC2 Inf1 وقللنا وقت استجابة الاستدلال بنسبة 97% مقارنة بالمثيلات المستندة إلى وحدة معالجة الرسومات المماثلة مع تقليل التكاليف أيضًا. نظرًا لأننا نواصل ضبط نماذج معالجة اللغة الطبيعية (NLP) المصممة خصيصًا بشكل دوري، فإن تقليل أوقات تدريب النماذج وتكاليفها أمر مهم أيضًا. استنادًا إلى خبرتنا في الترحيل الناجح لأعباء عمل الاستدلال على مثيلات Inf1 وعملنا الأولي على مثيلات EC2 Trn1 المستندة إلى AWS Trainium، نتوقع أن توفر مثيلات Trn1 قيمة إضافية في تحسين أداء وتكلفة تعلم الآلة الشاملة.

    Takuya Nakade، كبير مسؤولي التكنولوجيا (CTO) في شركة Money Forward Inc.
  • Magic

    Magic هي شركة متكاملة للمنتجات والأبحاث تعمل على تطوير الذكاء الاصطناعي الذي يبدو وكأنه زميل لجعل العالم أكثر إنتاجية.

    يعد تدريب النماذج الكبيرة القائمة على المحولات ذاتية التراجع مكونًا أساسيًا في عملنا. صُمِّمت مثيلات Trn1 التي تعمل بنظام AWS Trainium خصيصًا لأحمال العمل هذه، مما يوفر قابلية تطوير لا نهائية تقريبًا، وشبكات سريعة بين العقد، ودعمًا متقدمًا لأنواع البيانات ذات 16 و8 بت. ستساعدنا مثيلات Trn1 في تدريب النماذج الكبيرة بشكل أسرع وبتكلفة أقل. نحن متحمسون بشكل خاص للدعم الأصلي للتقريب العشوائي لـ BF16 في Trainium، مما يؤدي إلى زيادة الأداء بينما لا يمكن تمييز الدقة العددية عن الدقة الكاملة.

    Eric Steinberger، المؤسس المشارك والرئيس التنفيذي (Cofounder and CEO) لشركة Magic
  • Cactus Communications

    لدى CACTUS مجموعة من المنتجات والحلول للباحثين والمنظمات التي تعمل على تحسين كيفية تمويل الأبحاث ونشرها وإيصالها واكتشافها.

    في Cactus Labs، نسخر قوة الذكاء الاصطناعي، من خلال الأبحاث التي تركز على معالجة اللغة الطبيعية، والترتيب والتوصية، والذكاء الاصطناعي للمحادثة، ونماذج اللغات الكبيرة، ورؤية الكمبيوتر، وAR/VR و XAI. تماشياً مع سعينا لتمكين التدريب السريع لنماذج تعلّم الآلة بالإضافة إلى تمكين باحثينا من إجراء المزيد من التجارب أثناء إدارة تكلفة البنية التحتية، كان من دواعي سرورنا تقييم AWS Trainium. تعد ميزات AWS Trainium المبتكرة مثل تحسين XLA والتدريب المتوازي للبيانات متعددة العمال والتخزين المؤقت للرسم البياني مفيدة حقًا لنا لتقليل أوقات التدريب لدينا ومساعدتنا على إجراء المزيد من التجارب بشكل أسرع وأرخص.

    Nishchay Shah، كبير مسؤولي التكنولوجيا ورئيس قسم المنتجات (CTO and Head of Emerging Products) في شركة Cactus Communications
  • Watashiha

    تقدم Watashiha خدمة روبوت محادثة مبتكرة وتفاعلية تعمل بالذكاء الاصطناعي، «OGIRI AI»، والتي تدمج الفكاهة لتقديم إجابة مضحكة على الفور للسؤال.

    نحن نستخدم نماذج اللغة الكبيرة لدمج الفكاهة وتقديم تجربة أكثر ملاءمة ومحادثة لعملائنا على خدمات الذكاء الاصطناعي. هذا يتطلب منا تدريب هذه النماذج مسبقًا وضبطها بشكل متكرر. قمنا بتدريب نموذج ياباني قائم على GPT مسبقًا على مثيل EC2 Trn1.32xlarge، مع الاستفادة من tensor وتوازي البيانات. تم الانتهاء من التدريب في غضون 28 يومًا بتخفيض التكلفة بنسبة 33% مقارنة بالبنية التحتية السابقة القائمة على وحدة معالجة الرسوميات (GPU). مع استمرار نمو نماذجنا بسرعة من حيث التعقيد، فإننا نتطلع إلى مثيلات Trn1n التي لديها ضِعف عرض النطاق الترددي للشبكة لـ Trn1 لتسريع تدريب النماذج الأكبر حجمًا.

    Yohei Kobashi، مدير الشئون التقنية (CTO) لشركة Watashiha، K.K.
  • PyTorch

    في PyTorch، نقوم بتسريع عملية تعلّم الآلة من النماذج الأولية البحثية إلى الإنتاج الجاهز للعملاء. لقد تعاوننا على نطاق واسع مع فريق AWS لتوفير دعم PyTorch الأصلي لمثيلات Amazon EC2 Trn1 الجديدة التي تعمل بنظام AWS Trainium والتي تم تصميمها خصيصًا لتدريب نماذج التعلم العميق. يمكن للمطورين الذين يقومون ببناء نماذج PyTorch بدء التدريب على مثيلات Trn1 مع الحد الأدنى من التغييرات في الأكواد. بالإضافة إلى ذلك، عملنا مع مجتمع OpenXLA لتمكين مكتبات PyTorch الموزعة لترحيل النماذج بسهولة من المثيلات المستندة إلى GPU إلى مثيلات Trn1. نحن متحمسون للابتكار الذي تجلبه مثيلات Trn1 إلى مجتمع PyTorch، بما في ذلك أنواع البيانات الأكثر كفاءة والأشكال الديناميكية والمشغلين المخصصين والتقريب العشوائي المحسن للأجهزة ووضع التصحيح المتحمس. كل هذا يجعل Trn1 مناسبًا تمامًا للتبني الواسع من قبل مطوري PyTorch ونتطلع إلى المساهمات المشتركة المستقبلية في PyTorch لزيادة تحسين أداء التدريب.

    Geeta Chauhan، الذكاء الاصطناعي التطبيقي، مديرة قسم الهندسة (Applied AI, Engineering Manager)، PyTorch
  • Hugging Face

    تتمثل مهمة Hugging Face في إضفاء الطابع الديمقراطي على تعلم الآلة (ML) الجيد لمساعدة مطوري تعلم الآلة (ML) حول العالم على حل مشكلات العالم الحقيقي. والمفتاح في ذلك هو ضمان تشغيل أحدث وأروع الموديلات بأسرع ما يمكن وبكفاءة على أفضل شرائح تعلم الآلة (ML) في السحابة. نحن متحمسون للغاية بشأن إمكانية أن تصبح Inferentia2 الطريقة القياسية الجديدة لنشر نماذج الذكاء الاصطناعي المولّد على نطاق واسع. مع Inf1، رأينا تكلفة أقل بنسبة تصل إلى 70% مقارنة بالمثيلات التقليدية المستندة إلى وحدة معالجة الرسومات (GPU)، ومع Inf2 شهدنا زمن انتقال أقل بما يصل إلى 8 أضعاف للمحولات الشبيهة بـ BERT مقارنة بـ Inferentia1. مع Inferentia2، سيكون مجتمعنا قادرًا على توسيع نطاق هذا الأداء بسهولة ليشمل نماذج اللغة الكبيرة (LLMs) على مقياس معايير 100B+، وإلى أحدث نماذج الانتشار ورؤية الكمبيوتر أيضًا.

  • Amazon

    نحن ندرب نماذج اللغة الكبيرة (LLM) متعددة الوسائط (نص + صورة) ومتعددة اللغات ومتعددة اللهجات ومدربة مسبقًا على مهام متعددة وتمتد عبر كيانات متعددة (المنتجات والاستعلامات والعلامات التجارية والمراجعات وما إلى ذلك) لتحسين تجربة تسوق العملاء. توفر مثيلات Trn1 طريقة أكثر استدامة لتدريب نماذج اللغة الكبيرة (LLM) من خلال تقديم أفضل أداء/واط مقارنة بحلول تعلم الآلة المتسارعة الأخرى وتقدم لنا أداءً عاليًا بأقل تكلفة. نحن نخطط لاستكشاف نوع بيانات FP8 الجديد القابل للتكوين، والتقريب العشوائي المتسارع للأجهزة لزيادة كفاءة التدريب وسرعة التطوير لدينا.

    Trishul Chilimbi، نائب الرئيس في Amazon Search

بدء الاستخدام

يمكنك بسهولة تدريب النماذج على مثيلات Trn1 باستخدام Amazon SageMaker. تقليل الوقت والتكلفة لتدريب نماذج تعلم الآلة (ML) وضبطها بشكل كبير دون الحاجة إلى إدارة البنية التحتية. باستخدام SageMaker، يمكنك استخدام الأدوات المضمنة لإدارة تجارب التدريب وتتبعها، واختيار المعلمات الفائقة المثلى تلقائيًا، وتصحيح مهام التدريب، ومراقبة استخدام موارد النظام.

توفر AWS Deep Learning AMIs (DLAMI) للعاملين في مجال التعلم العميق (DL) وباحثي البنية التحتية والأدوات لتسريع التعلم العميق (DL) على AWS، على أي نطاق. تأتي برامج تشغيل AWS Neuron مُعدة مسبقًا في DLAMI لتدريب نماذج التعلم العميق (DL) على النحو الأمثل على مثيلات Trn1.

يمكنك الآن نشر مثيلات Trn1 في خدمة Amazon Elastic Kubernetes‏ (EKS)، وهي خدمة Kubernetes مُدارة بالكامل، وفي خدمة Amazon Elastic Container Service‏ (ECS)، وهي خدمة تنسيق حاويات مُدارة بالكامل. تتوفر خدمة Neuron أيضًا بتثبيت مسبق في حاويات التعلم العميق من AWS. لمعرفة المزيد حول تشغيل الحاويات على مثيلات Trn1، راجع البرامج التعليمية لحاويات Neuron.

تفاصيل المنتج

حجم المثيل رقائق Trainium
المُسرِّع
الذاكرة
(جيجابايت)
وحدات المعالجة المركزية الافتراضية (vCPU) المثيل
الذاكرة
(جيبي بايت)
محلي
NVMe
التخزين
(تيرابايت)
الشبكة
النطاق الترددي
(جيجابت في الثانية)
EFA و
RDMA
الدعم
EBS
النطاق الترددي
(جيجابت في الثانية)
عند الطلب
السعر لكل ساعة
عام واحد
المثيل
المثيل
فعّال
في الساعة*
3 سنوات
المثيل
المثيل
فعّال
في الساعة*
trn1.2xlarge 1 32 8 32 0.5 ما يصل إلى 12.5 لا ما يصل إلى 20 1.34 USD USD 0.79 USD 0.4744
trn1.32xlarge 16 512 128 512 8 800 نعم 80 USD 21.50 USD 12.60 USD7.59

trn1n.32xlarge

16 512 128 512 8 1600 نعم 80 USD 24.78 USD 14.52 USD 8.59