AWS Neuron

SDK để tối ưu hóa AI và học sâu trên AWS Trainium và AWS Inferentia

AWS Neuron là gì?

AWS Neuron là bộ phát triển phần mềm (SDK) dùng để chạy khối lượng công việc học sâu và AI tạo sinh trên các phiên bản Amazon Elastic Compute Cloud (Amazon EC2) được hỗ trợ bởi AWS Inferentia và AWS Trainium. Bộ công cụ này bao gồm trình biên dịch, thời gian hoạt động, thư viện đào tạo và suy luận, cùng các công cụ dành cho nhà phát triển để giám sát, lập hồ sơ và gỡ lỗi. Neuron hỗ trợ vòng đời phát triển máy học (ML) toàn diện của bạn bao gồm xây dựng và triển khai mô hình học sâu và AI, giúp tối ưu hóa để đạt hiệu suất cao nhất và chi phí thấp nhất, đồng thời có được thông tin chi tiết sâu sắc hơn về hành vi của mô hình.

mô hình nền

Tích hợp chuyên biệt với các thư viện và khung ML phổ biến

Neuron tích hợp sẵn với PyTorch và JAX cũng như các thư viện ML thiết yếu như Hugging Face Optimum Neuron, PyTorch Lightning và AXLearn. Neuron cũng hỗ trợ OpenXLA, bao gồm StableHLO và GSPMD, cho phép các nhà phát triển PyTorch, XLA và JAX sử dụng các tối ưu hóa trình biên dịch của Neuron cho Inferentia và Trainium. Neuron cho phép bạn sử dụng các phiên bản chạy trên Trainium và Inferentia Amazon với các dịch vụ như Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab, Datadog và Weights & Biases.

mô hình nền

Thư viện đào tạo và suy luận phân tán

Neuron bao gồm các tối ưu hóa sẵn có để đào tạo và suy luận phân tán với các thư viện PyTorch mã nguồn mở NxD Training và NxD Inference. NxD Training đơn giản hóa và tối ưu hóa quá trình đào tạo phân tán quy mô lớn cũng như hỗ trợ nhiều kiến ​​trúc mô hình, chiến lược song song và quy trình đào tạo khác nhau. NxD Inference đem tới giải pháp toàn diện để suy luận mô hình tối ưu với các tính năng chính như lấy mẫu trên thiết bị, hợp nhất trọng số QKV, phân nhóm liên tục, giải mã suy đoán, phân vùng lưu trữ linh động và suy luận phân tán. NxD Inference cũng tích hợp với các giải phân phối như vLLM và Hugging Face TGI. Cả hai đều có một trung tâm mô hình cho các kiến ​​trúc mô hình khác nhau.

mô hình nền

Năng lực khoa học ứng dụng tiên tiến

Neuron cung cấp một số năng lực khoa học ứng dụng giúp các nhà khoa học và nhà nghiên cứu mở rộng ranh giới nghiên cứu cũng như đổi mới AI nguồn mở trên Trainium và Inferentia. Neuron Kernel Interface (NKI) cung cấp quyền truy cập trực tiếp vào các thành phần căn bản và hướng dẫn của phần cứng có trên Trainium và Inferentia, cho phép các nhà nghiên cứu xây dựng và tinh chỉnh nhân điện toán để có hiệu năng tối ưu. Giao diện này là một môi trường lập trình dựa trên Python áp dụng cú pháp giống Triton và ngữ nghĩa cấp ô phổ biến. Các nhà nghiên cứu có thể sử dụng NKI để nâng cao các mô hình học sâu với các chức năng mới, cách tối ưu hóa và đổi mới khoa học. Các toán tử C++ tùy chỉnh của Neuron cho phép các nhà phát triển mở rộng chức năng của SDK bằng cách tạo ra các toán tử riêng tối ưu cho Inferentia và Trainium.

mô hình nền

Công cụ quyền năng cho nhà phát triển

AWS Neuron SDK cung cấp bộ công cụ toàn diện để cung cấp thông tin chuyên sâu về giám sát, quản lý và tối ưu mô hình học sâu trên các phiên bản EC2 chạy bằng AWS Inferentia và Trainium. Bộ công cụ này các tiện ích như neuron-top, neuron-monitor và Neuron Sysfs để giám sát tài nguyên phần cứng, thực thi mô hình và thông tin chi tiết về hệ thống. Đối với các ứng dụng container hóa trong Kubernetes và EKS, Neuron đơn giản hóa quy trình giám sát thông qua tích hợp Amazon CloudWatch và các công cụ quan sát phổ biến khác như Data Dog và Weights & Biases. Ngoài ra, công cụ lập hồ sơ neuron giúp xác định và giải quyết vướng mắc về hiệu suất trong cả ứng dụng phân tán và ứng dụng một nút, đồng thời cho phép lập hồ sơ gốc cho các khung ML phổ biến.

mô hình nền

Bắt đầu

Neuron Deep Learning Amazon Machine Images (Neuron DLAMIS) được cấu hình sẵn với Neuron SDK, các khung xử lý phổ biến và thư viện hữu ích, cho phép bạn nhanh chóng bắt đầu đào tạo và chạy suy luận trên AWS Inferentia. Neuron DLAMIS hợp lý hóa quy trình làm việc của bạn và tối ưu hóa hiệu suất, loại bỏ sự phức tạp trong thiết lập để bạn có thể tập trung vào việc xây dựng và triển khai các mô hình AI. Để bắt đầu sử dụng Neuron DLAMIs.

Triển khai nhanh các mô hình bằng cách sử dụng AWS Neuron Deep Learning Containers (Neuron DLC) được cấu hình sẵn với các khung xử lý được tối ưu hóa cho Trainium và Inferentia. Đối với các giải pháp tùy chỉnh, hãy xây dựng các vùng chứa của riêng bạn và tận dụng các tính năng của Kubernetes như Plugin Thiết bị Neuron, Tiện ích mở rộng lập lịch Neuron và Biểu đồ Helm. Tích hợp liền mạch với các dịch vụ AWS như Amazon EKS, AWS Batch và Amazon ECS để dễ dàng thay đổi quy mô triển khai. Để bắt đầu sử dụng Neuron DLCs.

Optimum Neuron kết nối giữa Hugging Face Transformers và AWS Neuron SDK, cung cấp API Hugging Face tiêu chuẩn cho Trainium và Inferentia. Nó cung cấp các giải pháp cho cả đào tạo và suy luận, bao gồm hỗ trợ đào tạo mô hình quy mô lớn và triển khai cho quy trình công việc AI. Hỗ trợ Amazon SageMaker và các Container Deep Learning được xây dựng sẵn, Optimum Neuron đơn giản hóa việc sử dụng Trainium và Inferentia cho ML. Sự tích hợp này cho phép các nhà phát triển làm việc với các giao diện Hugging Face quen thuộc trong khi tận dụng Trainium và Inferentia cho các dự án trên transformer của họ. Bắt đầu sử dụng Optimum Neuron của Hugging Face.

Bạn có thể sử dụng Amazon SageMaker JumpStart để đào tạo và triển khai các mô hình bằng Neuron. JumpStart cung cấp hỗ trợ tinh chỉnh và triển khai các mô hình phổ biến như dòng mô hình Llama của Meta. Bắt đầu với SageMaker Jumpstart.