AWS Trainium

Đạt hiệu năng cao cho quá trình học sâu và đào tạo AI tạo sinh, đồng thời giảm chi phí

Tại sao nên sử dụng Trainium?

Chip AWS Trainium là dòng chip AI được AWS thiết kế chuyên để đào tạo và suy luận AI nhằm tăng cường hiệu suất, tiết giảm chi phí.

Chip AWS Trainium thế hệ đầu tiên hỗ trợ các phiên bản Trn1 của Amazon Elastic Compute Cloud (Amazon EC2), trong đó tiết kiệm tới 50% chi phí đào tạo so với các phiên bản Amazon EC2 tương đương. Nhiều khách hàng gồm Databricks, Ricoh, NinjaTech AI và Arcee AI đang nhận ra ưu thế về hiệu suất và chi phí từ các phiên bản Trn1.

Chip AWS Trainium2 tăng tới 4 lần hiệu suất so với Trainium thế hệ đầu tiên. Phiên bản Amazon EC2 Trn2 sử dụng Trainium2 được xây dựng chuyên cho AI tạo sinh và là phiên bản EC2 mạnh nhất để đào tạo cũng như triển khai mô hình với hàng trăm tỷ đến hàng nghìn tỷ tham số. Phiên bản Trn2 giúp tăng 30-40% hiệu quả về giá so với phiên bản EC2 P5e và P5en sử dụng GPU của thế hệ hiện tại. Phiên bản Trn2 có 16 chip Trainium2 liên kết với nhau bằng NeuronLink, công nghệ kết nối chip-to-chip độc quyền của chúng tôi. Bạn có thể sử dụng phiên bản Trn2 để đào tạo và triển khai các mô hình đòi hỏi khắt khe nhất gồm các mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và bộ chuyển đổi khuếch tán để xây dựng một tập hợp các ứng dụng AI tạo sinh đa dạng thế hệ mới. Trn2 UltraServers là dịch vụ EC2 hoàn toàn mới (cho phép xem trước) phù hợp với các mô hình lớn nhất đòi hỏi nhiều bộ nhớ và băng thông bộ nhớ hơn so với khả năng của những phiên bản EC2 độc lập. Thiết kế UltraServer khai phá quyền năng mới nhờ sử dụng NeuronLink để kết nối 64 chip Trainium2 khắp bốn phiên bản Trn2 thành một nút. Đối với suy luận, UltraServers giúp mang đến thời gian phản hồi đầu ngành để tạo ra trải nghiệm thời gian thực tốt nhất. Còn với đào tạo, UltraServers thúc đẩy tốc độ và hiệu quả đào tạo mô hình nhờ phương thức giao tiếp tập thể nhanh hơn, hỗ trợ tính song song của mô hình so với các phiên bản độc lập.

Bạn có thể bắt đầu đào tạo và triển khai mô hình trên các phiên bản Trn2 và Trn1 với sự hỗ trợ chuyên biệt cho các nền tảng máy học (ML) phổ biến như PyTorch và JAX.

Lợi ích

Trn2 UltraServer và phiên bản mang lại hiệu năng đột phá trong Amazon EC2 để đào tạo và suy luận AI tạo sinh. Mỗi Trn2 UltraServer có 64 chip Trainium2 được kết nối với NeuronLink, kết nối chip-to-chip độc quyền của chúng tôi và cung cấp tới 83,2 petaflops tính toán FP8, 6 TB HBM3 với 185 terabyte mỗi giây (TBps) băng thông bộ nhớ và 12,8 terabit mỗi giây (Tbps) mạng Elastic Fabric Adapter (EFA). Mỗi phiên bản Trn2 có 16 chip Trainium2 được kết nối với NeuronLink và cung cấp tới 20,8 petaflops tính toán FP8, 1,5 TB HBM3 với 46 TBps băng thông bộ nhớ và 3,2 Tbps mạng EFA. Phiên bản Trn1 có tối đa 16 chip Trainium và cung cấp tối đa 3 petaflops tính toán FP8, 512 GB HBM với băng thông bộ nhớ 9,8 TBps và mạng EFA lên đến 1,6 Tbps.

AWS Neuron SDK giúp bạn trích xuất hiệu suất đầy đủ từ phiên bản Trn2 và Trn1 để bạn có thể tập trung vào việc xây dựng và triển khai các mô hình cũng như đẩy nhanh thời gian đưa ra thị trường. AWS Neuron tích hợp nguyên bản với JAX, PyTorch và các thư viện thiết yếu như Hugging Face, PyTorch Lightning và NeMo. AWS Neuron hỗ trợ hơn 100.000 mô hình trên trung tâm mô hình Hugging Face bao gồm các mô hình phổ biến như dòng mô hình Llama của Meta và Stable Diffusion XL. Nó tối ưu hóa các mô hình ngay lập tức để đào tạo và suy luận phân tán, đồng thời cung cấp thông tin chi tiết sâu sắc để lập hồ sơ và gỡ lỗi. AWS Neuron tích hợp với các dịch vụ như Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab và Datadog.

Nhằm mang lại hiệu năng cao trong khi vẫn đáp ứng các mục tiêu chính xác, Trainium được tối ưu hóa cho FP32, TF32, BF16, FP16, FP8 và loại dữ liệu FP8 có thể cấu hình (cFP8) mới. Để hỗ trợ tốc độ đổi mới nhanh trong AI tạo sinh, Trainium2 có các tối ưu hóa phần cứng cho độ thưa 4x (16:4), quy mô vi mô, làm tròn ngẫu nhiên và các công cụ tập thể chuyên dụng.

Neuron Kernel Interface (NKI) cho phép truy cập trực tiếp vào kiến trúc tập lệnh (ISA) bằng cách sử dụng môi trường dựa trên Python với giao diện giống Triton, cho phép bạn đổi mới kiến trúc mô hình mới và hạt nhân tính toán được tối ưu hóa cao vượt trội hơn các kỹ thuật hiện có.

Phiên bản Trn2 được thiết kế để tiết kiệm năng lượng gấp ba lần so với phiên bản Trn1. Các phiên bản Trn1 tiết kiệm năng lượng hơn tới 25% so với các phiên bản EC2 tính toán tăng tốc tương đương. Các phiên bản này giúp bạn đáp ứng các mục tiêu phát triển bền vững khi đào tạo những mô hình siêu lớn.

Video

Chinh phục hiệu năng, chi phí và quy mô của AI
AWS Trainium2 mang lại hiệu năng AI đột phá
Câu chuyện khách hàng về chip AI của AWS