AWS Trainium

Повышайте производительность глубокого обучения и обучения генеративного искусственного интеллекта, понижая затраты

Почему стоит использовать Trainium?

Чипы AWS Trainium – это семейство чипов искусственного интеллекта, специально разработанных AWS для обучения ИИ и получения логических выводов для обеспечения высокой производительности при одновременном снижении затрат.

Чип AWS Trainium первого поколения поддерживает инстансы Amazon Elastic Compute Cloud (Amazon EC2) Trn1, стоимость обучения которых на 50 % ниже, чем у сопоставимых инстансов Amazon EC2. Многие клиенты, включая Databricks, Ricoh, NinjaTech AI и Arcee AI, осознают преимущества инстансов Trn1 в производительности и стоимости.

Чип AWS Trainium2 обеспечивает в 4 раза большую производительность по сравнению с Trainium первого поколения. Инстансы Amazon EC2 Trn2 на базе Trainium2 специально созданы для генеративного искусственного интеллекта. Это самые мощные инстансы EC2 для обучения и развертывания моделей с параметрами от сотен миллиардов до триллионов. Инстансы Trn2 предлагают на 30–40 % лучшую производительность по сравнению с текущим поколением инстансов EC2 P5e и P5en на базе графических процессоров. Инстансы Trn2 оснащены 16 чипами Trainium2, соединенными с NeuronLink, нашим запатентованным межчиповым соединением. Инстансы Trn2 можно использовать для обучения и развертывания самых требовательных моделей, включая большие языковые модели (LLM), мультимодальные модели и диффузионные трансформеры, для создания широкого набора приложений генеративного искусственного интеллекта нового поколения. Trn2 UltraServers, совершенно новое предложение EC2 (доступно в предварительной версии), идеально подходит для самых крупных моделей, которым требуется больше памяти и ее пропускной способности, чем могут обеспечить отдельные инстансы EC2. В конструкции UltraServer используется NeuronLink для соединения 64 чипов Trainium2 в четырех инстансах Trn2 в один узел, что открывает новые возможности. Для задач получения логических выводов инстансы UltraServers обеспечивают ведущее в отрасли время отклика и создание наилучших условий работы в режиме реального времени. Для задач обучения инстансы UltraServers повышают скорость и эффективность обучения модели благодаря более быстрой коллективной коммуникации для обеспечения параллелизма моделей по сравнению с отдельными инстансами.

Вы можете начать обучение и развертывание моделей на инстансах Trn2 и Trn1 со встроенной поддержкой популярных платформ машинного обучения, таких как PyTorch и JAX.

Преимущества

Серверы и инстансы Trn2 UltraServers обеспечивают непревзойденную производительность в Amazon EC2 для обучения и вывода генеративного ИИ. Каждый Trn2 UltraServer имеет 64 микросхемы Trainium2, объединенные с NeuronLink, нашим фирменным соединением типа «чип-чип», и обеспечивает до 83,2 петафлопс вычислений FP8, 6 ТБ HBM3 с пропускной способностью 185 терабайт в секунду (Тбит/с) и сеть интерфейса эластичной матрицы (EFA) 12,8 терабит в секунду (Тбит/с). Каждый инстанс Trn2 оснащен 16 чипами Trainium2, подключенными к NeuronLink, и обеспечивает до 20,8 петафлопс вычислений FP8, 1,5 ТБ HBM3 с полосой пропускания памяти 46 Тбит/с и 3,2 Тбит/с по сети EFA. Инстанс Trn1 оснащен 16 микросхемами Trainium и обеспечивает до 3 петафлопс вычислительных ресурсов FP8, 512 ГБ памяти HBM с пропускной способностью 9,8 Тбит/с и до 1,6 Тбит/с по сети EFA.

AWS Neuron SDK помогает извлечь максимальную производительность из инстансов Trn2 и Trn1, чтобы вы могли сосредоточиться на создании и развертывании моделей и ускорении выхода на рынок. AWS Neuron изначально интегрируется с JAX, PyTorch и такими важными библиотеками, как Hugging Face, PyTorch Lightning и NeMo. AWS Neuron поддерживает свыше 100 000 моделей из Центра моделей Hugging Face, включая популярные варианты, такие как Meta Llama и Stable Diffusion XL. Сервис оптимизирует готовые модели для распределенного обучения и вывода, а также предоставляет глубокие аналитические данные для профилирования и отладки. AWS Neuron интегрируется с такими сервисами, как Amazon SageMaker, Эластичный сервис Amazon Kubernetes (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster и Пакет AWS, а также со сторонними сервисами, такими как Ray (Anyscale), Domino Data Lab и Datadog.

Для обеспечения высокой производительности и соответствия целевым показателям точности чип Trainium поддерживает такие типы данных, как FP32, TF32, BF16, FP16, а также новый настраиваемый тип данных FP8 (cFP8). Для ускорения инноваций в области генеративного ИИ Trainium2 оптимизирует аппаратное обеспечение, поддерживая 4-кратную разреженность (16:4), микромасштабирование, стохастическое округление и специализированные коллективные движки.

Нейронный интерфейс Kernel (NKI) обеспечивает прямой доступ к архитектуре набора команд (ISA) с использованием среды на основе Python с интерфейсом, подобным Triton, что позволяет внедрять инновационные архитектуры моделей и высокооптимизированные вычислительные ядра, превосходящие существующие технологии.

Инстансы Trn2 спроектированы так, чтобы их энергоэффективность была в три раза выше, чем у инстансов Trn1. Энергоэффективность инстансов Trn1 на 25 % выше, чем у сопоставимых инстансов EC2 с ускоренными вычислениями. Инстансы Trn1 способствуют достижению целей устойчивого развития при обучении очень больших моделей.

Видео

Достигайте оптимальной производительности, стоимости и масштаба ИИ
AWS Trainium2 обеспечивает рекордную производительность искусственного интеллекта
Истории клиентов, которые используют чипы AWS на базе искусственного интеллекта

Ресурсы