Amazon SageMaker HyperPod

Масштабируйте и ускоряйте разработку моделей генеративного искусственного интеллекта в тысячах ускорителей ИИ

Что такое SageMaker HyperPod?

Amazon SageMaker HyperPod устраняет недифференцированную нагрузку, связанную с созданием моделей генеративного искусственного интеллекта. Это помогает быстро масштабировать задачи разработки моделей, такие как обучение, тонкая настройка или вывод, в кластере из сотен или тысяч ускорителей искусственного интеллекта. SageMaker HyperPod предоставляет централизованное управление всеми задачами по разработке моделей, обеспечивая полную видимость и контроль над приоритетами различных задач и распределением вычислительных ресурсов для каждой задачи, что помогает графическому процессору и AWS Trainium максимально эффективно использовать кластер, а также ускорить внедрение инноваций.

С помощью SageMaker HyperPod можно эффективно распределять и параллелизировать учебную рабочую нагрузку между всеми ускорителями. Чтобы помочь вам быстро достичь оптимальной производительности, SageMaker HyperPod автоматически применяет лучшие учебные конфигурации для популярных общедоступных моделей. Кроме того, это решение постоянно отслеживает кластер на предмет любых сбоев в инфраструктуре, автоматически устраняет проблемы и восстанавливает рабочие нагрузки без вмешательства человека – все это позволяет сэкономить до 40 % времени обучения.

Преимущества SageMaker HyperPod

Инновация в управлении задачами SageMaker HyperPod обеспечивает полную прозрачность и контроль распределения вычислительных ресурсов при выполнении задач по разработке моделей генеративного искусственного интеллекта, таких как обучение и логический вывод. SageMaker HyperPod автоматически управляет очередями задач, обеспечивая определение приоритета и выполнение наиболее важных задач в установленные сроки и в рамках бюджета, а также более эффективно используя вычислительные ресурсы для снижения затрат на разработку модели до 40 %.
Благодаря рецептам SageMaker HyperPod специалисты по обработке данных и разработчики с любым арсеналом навыков по достоинству оценят высочайшую производительность и смогут приступить к обучению и настройке общедоступных моделей генеративного искусственного интеллекта в считаные минуты. SageMaker HyperPod также предоставляет встроенные инструменты для экспериментов и наблюдений, которые помогают повысить производительность модели.
SageMaker HyperPod позволяет автоматически разделять модели и наборы данных обучения по инстансам кластера AWS для эффективного масштабирования учебных рабочих нагрузок. Это поможет оптимизировать задачу обучения для сетевой инфраструктуры AWS и топологии кластера. Кроме того, таким образом упрощается создание контрольных точек моделей с помощью рецептов: оптимизируется периодичность сохранения контрольных точек и обеспечивается минимизация затрат при обучении.
SageMaker HyperPod обеспечивает отказоустойчивую среду для разработки моделей, автоматически обнаруживая, диагностируя и восстанавливая неисправности инфраструктуры, что позволяет непрерывно выполнять рабочие нагрузки по разработке моделей в течение нескольких месяцев без перебоев.

Представляем управление задачами в SageMaker HyperPod

Раскройте весь потенциал и обеспечьте полную прозрачность вычислительных ресурсов при одновременном снижении затрат.

Подробнее