AWS Trainium

Ottieni prestazioni elevate per il deep learning e la formazione sull'IA generativa riducendo al contempo i costi

Perché Trainium?

AWS Trainium è il chip di machine learning (ML) che AWS ha creato appositamente per l'addestramento di deep learning (DL) di oltre 100 miliardi di modelli parametrici. Ogni istanza Trn1 di Amazon Elastic Compute Cloud (Amazon EC2) implementa fino a 16 acceleratori Trainium per fornire una soluzione a basso costo e ad alte prestazioni per l'addestramento di DL nel cloud. Sebbene l'uso del DL e dell'IA generativa stia accelerando, molti team di sviluppo sono vincolati dai budget fissi, limitando l'ambito e la frequenza dell'addestramento necessario per migliorare i modelli e le applicazioni. Le istanze Amazon EC2 Trn1 basate su Trainium risolvono questo problema offrendo un tempo di addestramento più rapido e al contempo un risparmio fino al 50% sui costi rispetto a istanze paragonabili di EC2. Trainium è stato ottimizzato per l'addestramento di modelli di elaborazione del linguaggio naturale, visione artificiale e raccomandazione utilizzati in un'ampia gamma di applicazioni, quali riepilogo di testo, generazione di codice, risposta a domande, generazione di immagini e video, raccomandazioni e rilevamento di frodi.

L'SDK di AWS Neuron aiuta gli sviluppatori a addestrare i modelli sugli acceleratori Trainium e a implementarli sugli acceleratori AWS Inferentia. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, permettendo di portare avanti l'addestramento sugli acceleratori Trainium utilizzando il codice e i flussi di lavoro esistenti.

Vantaggi di Trainium

Le istanze Trn1 basate su Trainium offrono prestazioni elevate e riducono i costi di addestramento fino al 50% rispetto ad altre istanze Amazon EC2 comparabili. Ogni acceleratore Trainium include due NeuronCore di seconda generazione creati appositamente per algoritmi di DL. Per supportare dati efficienti e parallelismo dei modelli, ogni acceleratore Trainium dispone di 32 GB di memoria a larghezza di banda elevata, fornisce fino a 190 TFLOPS di potenza di calcolo FP16/BF16 e presenta NeuronLink, una tecnologia di interconnessione non bloccante tra istanze ad altissima velocità.

L'SDK AWS Neuron, che supporta Trainium, è integrato in modo nativo con PyTorch e TensorFlow. Ciò garantisce che tu possa continuare a utilizzare i flussi di lavoro esistenti in questi framework popolari e iniziare a utilizzare Trainium con solo poche righe di modifiche al codice. Per l'addestramento del modello distribuito, l'SDK Neuron supporta librerie, come Megatron-LM e PyTorch Fully Sharded Data Parallel (FSDP). Per iniziare rapidamente con le istanze Amazon EC2 Trn1 alimentate da Trainium, consulta esempi di modelli comuni nella documentazione di Neuron.

Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, Trainium è ottimizzato per FP32, TF32, BF16, FP16, UINT8, FP8 e il nuovo tipo di dati cFP8 (cFP8) configurabile.
Per supportare la rapida innovazione di DL e IA generativa, Trainium presenta diverse novità che lo rendono flessibile ed estensibile per addestrare modelli DL in continua evoluzione. Trainium dispone di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, è compatibile con operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Le istanze Trn1 basate su Trainium sono fino al 25% più efficienti dal punto di vista energetico nell'addestramento di DL rispetto alle istanze EC2 di calcolo accelerato comparabili. Le istanze Trn1 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'addestramento di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon
Accelera il deep learning e innova più velocemente con AWS Trainium
Presentazione delle istanze Amazon EC2 Trn1 con tecnologia AWS Trainium