게시된 날짜: Apr 13, 2023
오늘 Amazon Elastic Compute Cloud(Amazon EC2) Inf2 인스턴스의 상용 버전 출시가 발표되었습니다. 이러한 인스턴스는 Amazon EC2에서 최저 비용으로 대규모 언어 모델(LLM) 및 비전 변환기를 비롯한 생성형 AI 모델을 위한 고성능을 제공합니다. 최대 12개의 AWS Inferentia2 칩(AWS에서 설계한 최신 딥 러닝(DL) 엑셀러레이터)를 기반으로 구동되는 Inf2 인스턴스는 1세대 Amazon EC2 Inf1 인스턴스에 비해 처리량은 최대 4배 많으며 지연 시간은 최대 10배 더 짧습니다.
Inf2 인스턴스를 사용하면 텍스트 요약, 코드 생성, 비디오 및 이미지 생성, 음성 인식, 개인화 등 널리 활용되는 애플리케이션을 실행할 수 있습니다. Inf2 인스턴스는 Amazon EC2에서 고속 비차단 인터커넥트 기술인 NeuronLink를 통해 지원되는 스케일 아웃 분산 추론 기능을 도입한 최초의 추론 최적화 인스턴스입니다. 이제 Inf2 인스턴스에서 여러 액셀러레이터에 수천억 개의 파라미터가 포함된 모델을 효율적으로 배포할 수 있습니다. Inf2 인스턴스는 기타 동급 Amazon EC2 인스턴스보다 최대 3배 더 높은 처리량, 최대 8배 더 짧은 지연 시간, 최대 40% 더 나은 가격 대비 성능을 제공합니다. 그리고 Inf2 인스턴스는 기타 동급 Amazon EC2 인스턴스에 비해 와트당 성능도 최대 50% 더 우수하므로 지속 가능성 목표도 더 쉽게 달성할 수 있습니다.
Inf2 인스턴스는 최대 2.3페타플롭의 DL 성능, 최대 384GB의 총 엑셀러레이터 메모리 및 초당 9.8TB의 대역폭을 제공합니다. AWS Neuron SDK는 PyTorch, TensorFlow 등 널리 사용되는 기계 학습 프레임워크와 기본적으로 통합됩니다. 따라서 기존 프레임워크와 애플리케이션 코드를 계속 사용하여 Inf2에서 배포를 실행할 수 있습니다. 개발자는 AWS Deep Learning AMI, AWS Deep Learning Containers 또는 관리형 서비스(예: Amazon Elastic Container Service(Amazon ECS), Amazon Elastic Kubernetes Service(Amazon EKS), Amazon SageMaker)를 사용하여 Inf2 인스턴스 사용을 시작할 수 있습니다.
Inf2 인스턴스는 미국 동부(버지니아 북부) 및 미국 동부(오하이오) AWS 리전에서 4개 크기(inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge)의 온디맨드 인스턴스, 예약 인스턴스 및 스팟 인스턴스로 제공됩니다.
Inf2 인스턴스에 대해 자세히 알아보려면 Amazon EC2 Inf2 인스턴스 웹페이지 및 AWS Neuron 설명서를 참조하십시오.