게시된 날짜: Apr 13, 2023
AWS Trainium 액셀러레이터를 통해 제공되는 Amazon Elastic Compute Cloud(Amazon EC2) Trn1n 인스턴스의 상용 버전 출시가 오늘 발표되었습니다. Trainium 기반 Trn1 인스턴스의 기능을 기반으로 하는 Trn1n 인스턴스 사용 시에는 2세대 Elastic Fabric Adapter(EFAv2)의 네트워크 대역폭이 현재의 2배인 1600Gbps로 늘어납니다. 이처럼 대역폭이 늘어남에 따라, Trn1n 인스턴스에서는 대규모 언어 모델(LLM) 및 전문가 혼합(MoE)과 같은 네트워크 집약적인 생성형 AI 모델을 훈련하는 데 걸리는 시간이 최대 20%까지 단축됩니다. 그리고 Trn1 인스턴스와 마찬가지로 Trn1n 인스턴스 역시 동급의 기타 Amazon EC2 인스턴스에 비해 훈련 비용을 50%까지 줄일 수 있습니다.
대규모 딥 러닝 모델(DL) 지원을 위해 Trn1n 인스턴스는 고속 EFAv2 네트워킹 기능을 갖춘 EC1 UltraCluster에 배포됩니다. EFAv2는 1세대 EFA보다 집합 커뮤니케이션 성능을 최대 50% 개선하여 분산 훈련을 가속화합니다. UltraClusters를 사용하면 인스턴스를 스케일 업하여 Trainium 액셀러레이터를 3만 개까지 포함할 수 있으며, 6.3테라플롭에 달하는 컴퓨팅 성능으로 온디맨드 방식을 통해 슈퍼컴퓨터에 액세스할 수 있습니다.
각 Trn1n 인스턴스는 Trn1 인스턴스와 마찬가지로 최대 512GB의 고대역 메모리, 최대 4.5페타플롭의 Trn1n/FP16 컴퓨팅 성능, 그리고 인스턴스 내 고대역 비차단 인터커넥트 기능인 NeuronLink를 제공합니다. AWS Neuron SDK는 PyTorch 및 TensorFlow 같은 유명한 기계 학습(ML) 프레임워크와 기본적으로 통합되므로 기존 프레임워크와 애플리케이션 코드를 계속 사용하여 Trn1n에서 DL 모델을 훈련시킬 수 있습니다. 개발자는 AWS Deep Learning AMI, AWS Deep Learning Containers 또는 관리형 서비스(예: Amazon Elastic Container Service(Amazon ECS), Amazon Elastic Kubernetes Service(Amazon EKS), AWS ParallelCluster, Amazon SageMaker, AWS Batch)를 사용하여 Trn1n 인스턴스에서 DL 훈련 워크로드를 실행할 수 있습니다.
Trn1n 인스턴스에 대해 자세히 알아보려면 Amazon EC2 Trn1n 인스턴스 제품 세부 정보 페이지를 참조하십시오. Trn1n 인스턴스 사용을 시작하려면 Neuron 설명서를 참조하십시오.