Инстансы P3 в Amazon EC2

Ускорение машинного обучения и высокопроизводительных вычислений с помощью мощных графических процессоров

Преимущества инстансов Amazon EC2 P3

Инстансы P3 в Amazon EC2 используют до восьми графических процессоров NVIDIA® V100 с ядрами Tensor и обеспечивают пропускную способность сети до 100 Гбит/с, чтобы создать условия для работы приложений машинного обучения и высокопроизводительных вычислений в облаке. Эти инстансы обеспечивают производительность до 1 петафлопса в режиме смешанной точности на каждый инстанс, что позволяет значительно ускорить машинное обучение и высокопроизводительные вычисления. Опыты подтвердили, что инстансы P3 в Amazon EC2 сокращают продолжительность машинного обучения с нескольких дней до нескольких минут и в 3–4 раза увеличивают количество выполняемых симуляций в задачах высокопроизводительных вычислений.

Новейшее дополнение к семейству P3 в Amazon EC2 – инстансы P3dn.24xlarge, которые повышают пропускную способность сети в 4 раза по сравнению с инстансами P3.16xlarge. Новые инстансы оптимизированы для приложений распределенного машинного обучения и высокопроизводительных вычислений. Эти инстансы обеспечивают пропускную способность сети до 100 Гбит/с и используют 96 специализированных виртуальных ЦПУ Intel® Xeon® Scalable (Skylake), 8 графических процессоров NVIDIA® V100 с ядрами Tensor, каждый из которых оснащен 32 ГиБ памяти, а также локальное хранилище объемом 1,8 ТБ, состоящее из твердотельных накопителей на базе NVMe. Кроме того, инстансы P3dn.24xlarge поддерживают Интерфейс эластичной матрицы (EFA), который ускоряет распределенные приложения машинного обучения, использующие NVIDIA Collective Communications Library (NCCL). EFA может выполнять масштабирование до тысяч ЦПУ, значительно повышая пропускную способность и масштабируемость моделей глубокого обучения, что помогает быстрее достичь результатов.

Overview of Amazon EC2 P3 Instances

Преимущества

Инстансы P3 в Amazon EC2 – самые быстрые инстансы для машинного обучения в облаке. Это отличный выбор для специалистов по работе с данными, исследователей и разработчиков, желающих ускорить приложения машинного обучения. Инстансы P3 в Amazon EC2 используют до восьми графических процессоров последнего поколения NVIDIA V100 с ядрами Tensor и обеспечивают производительность до 1 петафлопса в режиме смешанной точности. Это помогает значительно ускорить рабочие нагрузки, связанные с машинным обучением. Ускорение обучения моделей позволяет специалистам по работе с данными и инженерам машинного обучения быстрее выполнять итерации, обучать большее количество моделей и повышать точность.

Благодаря гибким ценовым планам на один из самых мощных облачных инстансов с графическим процессором клиенты получают максимально экономичное решение для машинного обучения. Как и остальные инстансы Amazon EC2, инстансы P3 доступны как инстансы по требованию, зарезервированные или спотовые инстансы. Спотовые инстансы задействуют неиспользуемые ресурсы инстансов EC2 и позволяют значительно снизить стоимость использования Amazon EC2, получив экономию до 70 % по сравнению с ценами на инстансы по требованию.

В отличие от локальных систем высокопроизводительные вычисления на инстансах P3 в Amazon EC2 обеспечивают практически неограниченную производительность для масштабирования инфраструктуры и возможность гибко настраивать ресурсы в зависимости от рабочих нагрузок. Сервис позволяет настраивать ресурсы в соответствии с требованиями приложения, при этом кластер для высокопроизводительных вычислений можно запустить в течение нескольких минут и оплачивать его работу только по факту использования.

Предварительно упакованные образы Docker можно использовать для быстрого развертывания сред глубокого обучения. Образы полностью протестированы и включают в себя библиотеки и инструменты, необходимые для платформы глубокого обучения (в настоящее время это TensorFlow и Apache MXNet). Для повышения уровня контроля в вопросах мониторинга, соответствия требованиям и обработки данных можно просто добавить собственные библиотеки и инструменты к тем, что уже установлены в образах. Кроме того, инстансы Amazon EC2 P3 эффективно работают с сервисом Amazon SageMaker, образуя мощную и интуитивно понятную комплексную платформу машинного обучения. Amazon SageMaker – полностью управляемая платформа машинного обучения, которая позволяет просто и быстро создавать, обучать и развертывать модели машинного обучения. Кроме того, инстансы P3 в Amazon EC2 можно использовать для развертывания образов Amazon Machine Image с AWS Deep Learning AMI с предустановленными популярными платформами глубокого обучения. Это позволяет быстрее начать работу с машинным обучением и ускоряет получение логических выводов.

Отзывы клиентов

Здесь представлены несколько примеров того, как наши клиенты и партнеры достигли бизнес-целей с помощью инстансов Amazon EC2 P3.

  • Airbnb

    Airbnb использует машинное обучение для оптимизации поисковых рекомендаций и улучшения динамического ценообразования для хозяев жилья. Все это помогает повысить конверсию заказов на бронирование. С инстансами P3 в Amazon EC2 у Airbnb появилась возможность быстрее выполнять рабочие нагрузки по обучению моделей, что позволяет выполнять больше итераций, создавать более совершенные модели машинного обучения и сокращать расходы.

  • Celgene

    Celgene – это международная биотехнологическая компания, которая разрабатывает узкоцелевые терапевтические методики, направленные на лечение отдельно взятых пациентов. Компания размещает рабочие нагрузки высокопроизводительных вычислений, предназначенных для секвенирования генома следующего поколения и моделирования химических взаимодействий, в инстансах Amazon EC2 P3. Благодаря высоким вычислительным мощностям компании Celgene удается тренировать модели глубокого обучения, способные различать доброкачественные и злокачественные клетки организма. Без инстансов P3 для выполнения крупномасштабных вычислительных заданий требовалось два месяца, сейчас же подобные задачи решаются за четыре часа. Технологии AWS позволили Celgene ускорить разработку планов медикаментозной терапии для рака и воспалительных заболеваний.

  • Hyperconnect

     

    Компания Hyperconnect специализируется на обработке изображений и видеофайлов с помощью новых технологий машинного обучения. Она первая разработала webRTC для мобильных платформ.

    Ознакомиться с примером использования

    В нашем приложении для видеосвязи используется классификация изображений на основе искусственного интеллекта, что позволяет определить текущую окружающую обстановку пользователя. Hyperconnect перешел с локальных рабочих станций на инстансы P3 в Amazon EC2 с использованием платформы Horovod. Раньше продолжительность машинного обучения составляла более недели – теперь на это требуется менее одного дня. В качестве платформы машинного обучения мы использовали PyTorch, благодаря чему удалось быстро разработать модели и воспользоваться библиотеками с открытым исходным кодом.

    Ха Сонджу, руководитель лаборатории искусственного интеллекта, Hyperconnect
  • NerdWallet

    Стартап в сфере личных финансов NerdWallet предоставляет инструменты и советы, с помощью которых клиенты могут легко погасить долги, выбрать лучшие финансовые продукты и услуги, а также достичь таких главных целей, как покупка дома или накопление пенсионных сбережений. Чтобы обеспечить клиентам доступ к индивидуальным финансовым продуктам, компания активно использует анализ данных и машинное обучение.

    Ознакомиться с примером использования

    Гибкость и производительность NerdWallet также улучшились благодаря использованию Amazon SageMaker и инстансов P3 в Amazon EC2 на графических процессорах NVIDIA V100 с ядрами Tensor. Сократилась продолжительность машинного обучения. Раньше специалистам по работе с данными требовались месяцы для запуска и перебора моделей, а сейчас это занимает несколько дней.

    Райан Киркман, старший технический руководитель NerdWallet
  • PathWise Solutions Group

    Набор облачных SaaS-приложений PathWise от компании Aon предназначен для риск-ориентированного подхода к управлению предприятием. Приложения предоставляют широкому спектру клиентов услуги по требованию, являясь быстрым, надежным и безопасным решением, которое занимает лидирующие позиции в сфере систем качества.

    Ознакомиться с примером использования

    PathWise Solutions Group (дочерняя компания Aon) разработала программный комплекс для управления рисками, который позволит нашим клиентам использовать новейшие технологии и оперативно решать основные задачи современного страхования. В условиях быстро развивающегося и меняющегося по всему миру рынка такими задачами могут быть тестирование и применение стратегий хеджирования, правовое и экономическое прогнозирование и формирование бюджета. Чтобы ускорить вычисления, необходимые для решения этих задач, в настоящее время применяются инстансы Amazon EC2 типа P. Промышленная версия PathWise работает на AWS с 2011 года.

    Ван Бич, глобальный руководитель отдела практических решений, группа стратегий и технологий Aon Pathwise
  • Pinterest

    Pinterest использует техники смешанного высокоточного обучения в инстансах AWS P3 для ускоренного создания моделей глубокого обучения, а также применяет эти инстансы для более быстрого получения логических выводов из этих моделей, что позволяет предложить пользователю уникальный опыт взаимодействия и ускорить рабочие процессы. Pinterest использует технологию PinSage, созданную с применением PyTorch на базе AWS. Эта модель ИИ группирует изображения в зависимости от тематики. В распоряжении платформы содержится 3 миллиарда изображений, связанных друг с другом 18 миллиардами различных ассоциативных связей. Эти ассоциативные связи помогают Pinterest подбирать контекст для тем и стилей, а также повышать уровень персонализации рабочего пространства пользователя.

  • Salesforce

     

    Salesforce применяет машинное обучение для работы приложения Einstein Vision, которое позволяет разработчикам использовать распознавание изображений для визуального поиска, определения бренда и идентификации продукта. Инстансы P3 в Amazon EC2 позволяют разработчикам значительно ускорить процессы глубокого обучения моделей, что позволяет быстрее достигать результатов в сфере машинного обучения.

  • Schrodinger

    Schrodinger использует высокопроизводительные вычисления для разработки прогнозирующих моделей, которые расширяют масштабы поиска и оптимизации и позволяют клиентам компании быстрее выводить на рынок жизненно важные лекарственные препараты. Благодаря инстансам P3 в Amazon EC2 компания Schrodinger может выполнять за день в четыре раза больше симуляций, чем при использовании инстансов P2.  

  • Subtle Medical

    Subtle Medical – компания, разрабатывающая технологии в области здравоохранения. Ее инновационные решения глубокого обучения позволят повысить уровень обработки медицинских изображений и улучшить обслуживание пациентов. В состав команды входят известные рентгенологи, специалисты по обработке изображений и эксперты в сфере искусственного интеллекта из Стэнфорда, Массачусетского технологического института, онкологического центра им. М. Д. Андерсона и других исследовательских центров.

    Ознакомиться с примером использования

    Больницы и центры обработки изображений хотели бы применять наше решение так, чтобы их департаментам информационных технологий не пришлось изучать специфику графических процессоров и приобретать дорогостоящие дата-центры или маленькое облако. Они хотят успешно развертывать свою инфраструктуру при минимальном уровне усилий и инвестиций… Решить эту задачу позволяет AWS.

    Гун Эньхао, основатель и генеральный директор Subtle Medical
  • Western Digital

    Western Digital использует высокопроизводительные вычисления для запуска десятков тысяч симуляций с целью изучения свойств материалов, тепловых потоков, магнетизма, а также для моделирования передачи данных, чтобы повысить производительность и качество дисковых приводов и решений для хранения данных. По результатам первичного тестирования, новые инстансы P3 позволяют инженерным командам выполнять моделирование и симуляции как минимум в три раза быстрее, чем при использовании ранее развернутых решений.  

Инстансы Amazon EC2 P3 и Amazon SageMaker

Сервис Amazon SageMaker позволяет без труда создавать модели машинного обучения и готовить их к обучению. Он предоставляет все необходимое, чтобы быстро подключиться к данным для обучения, а также выбрать и оптимизировать наилучший алгоритм и платформу для разрабатываемого приложения. Amazon SageMaker предоставляет размещенные блокноты Jupyter, которые облегчают обзор и визуализацию данных для обучения, хранимых в Amazon S3.  Инстанс блокнота можно также использовать для создания кода, которые создает задания по обучению моделей, выполняет развертывание моделей в сервисе Amazon SageMaker, а также проводит тестирование или оценку моделей.

Приступить к обучению модели можно одним щелчком мыши в консоли или совершив один простой вызов API. В Amazon SageMaker уже установлены самые новые версии TensorFlow и Apache MXNet, а также реализована поддержка библиотеки CUDA9 для оптимальной производительности при работе с графическими процессорами NVIDIA. Кроме того, оптимизация гиперпараметров позволяет настроить модель автоматически путем интеллектуального анализа различных комбинаций параметров, благодаря чему модель быстро выдаст прогноз максимально возможной точности. Если есть потребности в увеличении масштаба, можно выполнить масштабирование на десятки инстансов для ускорения построения моделей.

После обучения модели можно одним щелчком мыши выполнить ее развертывание на автомасштабируемых инстансах Amazon EC2 в нескольких зонах доступности. При рабочем развертывании Amazon SageMaker от имени пользователя управляет вычислительной средой, выполняя проверку работоспособности, применяя исправления системы безопасности и обеспечивая выполнение других рутинных операций по обслуживанию. Дополнительно сервис предоставляет встроенные возможности мониторинга и ведения журналов средствами Amazon CloudWatch.

Инстансы Amazon EC2 P3 и образы AWS Deep Learning AMI

Предварительно настроенные среды разработки для быстрого начала разработки приложений глубокого обучения

Образы AWS Deep Learning AMI являются альтернативой сервису Amazon SageMaker для разработчиков с индивидуальными требованиями. Они предоставляют специалистам по машинному обучению и исследователям инфраструктуру и инструменты для ускорения глубокого обучения в облаке в любых масштабах. С помощью этих образов можно быстро запускать в Amazon EC2 инстансы P3 с предварительно установленными популярными платформами глубокого обучения, такими как TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon и Keras, что позволяет обучать сложные специальные модели искусственного интеллекта, экспериментировать с новыми алгоритмами или изучать новые навыки и методы. Подробнее

Инстансы Amazon EC2 P3 и высокопроизводительные вычисления

Решайте сложные вычислительные задачи и находите новые идеи, используя всю мощь высокопроизводительных вычислений на платформе AWS

Инстансы P3 сервиса Amazon EC2 – идеальная платформа для инженерного моделирования, финансовых вычислений, сейсмического анализа, молекулярного моделирования, геномики, рендеринга и прочих рабочих нагрузок, требующих наличия графического процессора. С помощью высокопроизводительных вычислений (HPC) ученые и инженеры могут решать сложные задачи, требующие больших вычислительных мощностей. Для работы HPC‑приложений часто требуется высокая производительность сети, хранилище с высокой скоростью чтения и записи, большая емкость памяти, огромные вычислительные мощности либо все эти ресурсы одновременно. AWS позволяет сократить время проведения исследований и ускорить получение результатов благодаря запуску высокопроизводительных вычислений в облаке и масштабированию с возможностью параллельного выполнения такого количества заданий, которое недостижимо в обычной локальной среде. Например, инстансы P3dn.24xlarge поддерживают Elastic Fabric Adapter (EFA), позволяющий HPC-приложениям использовать интерфейс передачи сообщений (MPI) для масштабирования до тысяч ЦПУ. При этом AWS способствует сокращению расходов, предоставляя решения, оптимизированные под определенные приложения, без больших капитальных инвестиций. Подробнее

Поддержка виртуальной рабочей станции NVIDIA RTX

AMI виртуальной рабочей станции NVIDIA RTX обеспечивают высокую графическую производительность, используя мощные инстансы P3 с графическими процессорами NVIDIA Volta V100, работающими в облаке AWS. На этих AMI предустановлено новейшее графическое программное обеспечение NVIDIA GPU вместе с последними драйверами RTX и сертификатами NVIDIA ISV с поддержкой до четырех мониторов с разрешением 4K. Инстансы P3 с графическими процессорами NVIDIA V100 в сочетании с RTX vWS обеспечивают высокую производительность рабочих станций в облаке с объемом графической памяти до 32 ГиБ, быстрой трассировкой лучей и рендерингом на базе искусственного интеллекта.

Новые AMI с поддержкой Windows Server 2016 и Windows Server 2019 доступны в AWS Marketplace.

Инстансы P3dn.24xlarge в Amazon EC2

Инстансы P3dn.24xlarge в Amazon EC2 – это самые быстрые, самые мощные и самые крупные инстансы P3. Они обеспечивают пропускную способность сети до 100 Гбит/с, имеют 8 графических процессоров NVIDIA® V100 с ядрами Tensor с 32 ГиБ памяти у каждого, 96 специализированных виртуальных центральных процессоров Intel® Xeon® Scalable (Skylake) и локальное хранилище объемом 1,8 ТБ, состоящее из твердотельных накопителей на базе NVMe. Самая высокая пропускная способность сети, новые процессоры, удвоенный объем памяти графических процессоров и дополнительные виртуальные ЦП позволяют разработчикам значительно сократить время обучения моделей машинного обучения или запускать модели, требующие более высокопроизводительных вычислений, за счет горизонтального масштабирования своих заданий на несколько инстансов (например, на 16, 32 или 64 инстанса). Модели машинного обучения требуют большого количества данных для обучения. Инстансы P3dn.24xlarge обеспечивают повышенную пропускную способность сети, что ускоряет не только передачу данных между инстансами, но и доступ к большим объемам данных для обучения при подключении к Amazon S3 или файловым системам с общим доступом, таким как Amazon EFS.

Благодаря пропускной способности сети в 100 Гбит/с разработчики могут эффективно использовать большое количество инстансов P3dn.24xlarge для распределенного обучения, что позволяет значительно сократить время обучения моделей. 96 настроенных для работы с AWS виртуальных ЦПУ Intel Skylake с частотой 2,5 ГГц, поддерживающих набор инструкций AVX‑512, позволяют оптимизировать предварительную обработку данных. Кроме того, инстансы P3dn.24xlarge работают на базе системы AWS Nitro System, состоящей из выделенного оборудования и компактных гипервизоров, которые позволяют использовать на инстансах практически все вычислительные возможности и ресурсы памяти, обеспечиваемые оборудованием хостинга. Инстансы P3dn.24xlarge также поддерживают Elastic Fabric Adapter, позволяющий приложениям машинного обучения использовать библиотеку NVIDIA Collective Communications Library (NCCL) для масштабирования до тысяч графических процессоров.

Расширенные сетевые возможности на базе последней версии эластичного сетевого адаптера с совокупной пропускной способностью сети до 100 Гбит/с позволяют не только обмениваться данными между несколькими инстансами P3dn.24xlarge, но и обеспечивать высокоскоростной доступ к данным через Amazon S3 или файловые системы с общим доступом, такие как Amazon EFS. Высокоскоростной доступ к данным крайне важен для оптимизации использования графических процессоров и обеспечения максимальной производительности вычислительных инстансов.

Инстансы P3dn.24xlarge используют графические процессоры NVIDIA V100 с ядрами Tensor с 32 ГиБ памяти, которые позволяют гибко обучать более сложные и крупные модели машинного обучения, а также обрабатывать более крупные пакеты данных (например, изображения с разрешением 4K) в системах классификации изображений и обнаружения объектов.

Инстансы Amazon EC2 P3: сведения о продукте

Размер инстанса Графические процессоры – Tesla V100 Одноранговая связь графических процессоров Память графического процессора (ГБ) Виртуальные ЦПУ Память (ГБ) Пропускная способность сети Пропускная способность EBS Цена по требованию/час* Инстанс, зарезервированный на 1 год, фактический почасовой тариф* Инстанс, зарезервированный на 3 года, фактический почасовой тариф*
p3.2xlarge 1 н/д 16 8 61 До 10 Гбит/с 1,5 Гбит/с 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Гбит/с 7 Гбит/с 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Гбит/с 14 Гбит/с 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Гбит/с 19 Гбит/с 31,218 USD 18,30 USD 9,64 USD

* - Цены указаны для инстансов с Linux/Unix в регионе AWS Восток США (Северная Вирджиния) с округлением до цента. Полные сведения о ценах см. на странице цен на Amazon EC2.

Клиенты могут приобрести инстансы P3 в качестве инстансов по требованию, зарезервированных инстансов, спотовых инстансов или выделенного хостинга.

Посекундная тарификация

Одно из преимуществ облачных вычислений – возможность эластичного выделения ресурсов по мере необходимости. За счет посекундной тарификации мы позволяем клиентам повысить эластичность, сократить расходы и оптимизировать распределение ресурсов для достижения целей в сфере машинного обучения.

Цены на зарезервированные инстансы

На зарезервированные инстансы предоставляется значительная скидка (до 75 %) по сравнению с ценой инстансов по требованию. Кроме того, когда зарезервированные инстансы связываются с определенной зоной доступности, они обеспечивают резервирование ресурсов и предоставляют гарантию того, что можно будет запускать инстансы, как только они потребуются.

Спотовые цены

Использование спотовых инстансов оплачивается по ценам, которые действуют в период работы инстансов. Цены на спотовые инстансы устанавливаются Amazon EC2 и постепенно корректируются в зависимости от долгосрочных тенденций предложения и спроса на ресурсы спотовых инстансов. Спотовые инстансы доступны со скидкой до 90 % в сравнении с ценами по требованию.

Широчайшая доступность в международном масштабе

Международная доступность инстансов P3

Инстансы P3.2xlarge, P3.8xlarge и P3.16xlarge сервиса Amazon EC2 доступны в 14 регионах AWS, благодаря чему клиенты могут гибко обучать и развертывать модели машинного обучения, где бы ни хранились их данные. Инстансы P3 доступны в регионах AWS Восток США (Северная Вирджиния), Восток США (Огайо), Запад США (Орегон), Канада (Центр), Европа (Ирландия), Европа (Франкфурт), Европа (Лондон), Азия и Тихий океан (Токио), Азия и Тихий океан (Сеул), Азия и Тихий океан (Сидней), Азия и Тихий океан (Сингапур), Китай (Пекин), Китай (Нинся) и AWS GovCloud (США).

Инстансы P3dn.24xlarge доступны в регионах AWS «Азиатско-Тихоокеанский регион (Токио)», «Европа (Ирландия)», «Восток США (Северная Вирджиния)», «Запад США (Орегон)», «GovCloud (Запад США)» и «GovCloud (Восток США)».

Начало работы с инстансами Amazon EC2 P3 для машинного обучения

Чтобы начать работу за считаные минуты, узнайте подробнее об Amazon SageMaker или воспользуйтесь образами AWS Deep Learning AMI, в которых предустановлены популярные платформы глубокого обучения, такие как Caffe2 и MXNet. Кроме того, можно воспользоваться NVIDIA AMI с предварительно установленным драйвером графического процессора и инструментарием CUDA.

Блоги, статьи и вебинары

Отображение 1 - 8 (11)