Istanze P5 di Amazon EC2

Istanze basate su GPU ad alte prestazioni per applicazioni di deep learning e calcolo ad alte prestazioni (HPC)

Riserva per uso futuro

Perché scegliere le istanze Amazon EC2 P5?

Le istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2), basate su GPU NVIDIA H100 Tensor Core, e le istanze P5e e P5en basate su GPU NVIDIA H200 Tensor Core offrono prestazioni elevate in Amazon EC2 per applicazioni di deep learning (DL) e calcolo ad alte prestazioni (HPC). Permettono di accelerare i tempi di soluzione fino a 4 volte rispetto alle istanze EC2 basate su GPU di generazione precedente e a ridurre i costi di addestramento dei modelli di ML fino al 40%. Queste istanze ti aiutano a iterare sulle tue soluzioni a un ritmo più rapido e a raggiungere il mercato più rapidamente. Puoi utilizzare le istanze P5, P5e e P5en per addestrare e implementare modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione complessi che sono alla base delle applicazioni di IA generativa. Tali applicazioni includono la risposta a domande, la generazione di codice, la generazione di video e immagini e il riconoscimento vocale. Puoi utilizzare queste istanze anche per implementare applicazioni HPC su larga scala per la scoperta farmaceutica, l'analisi sismica, le previsioni meteorologiche e la modellazione finanziaria.

Per offrire questi miglioramenti delle prestazioni e risparmiare sui costi, le istanze P5 e P5e completano le GPU NVIDIA H100 e H200 Tensor Core con prestazioni della CPU e memoria di sistema due volte superiori, nonché uno spazio di archiviazione locale quadruplo rispetto alle istanze basate sulle GPU di generazione precedente. Le istanze P5en abbinano le GPU NVIDIA H200 Tensor Core alla CPU Intel Sapphire Rapids ad alte prestazioni, abilitando il PCIe Gen5 tra CPU e GPU. Le istanze P5en offrono una larghezza di banda fino a quattro volte superiore tra CPU e GPU e una latenza di rete inferiore rispetto alle istanze P5e e P5, migliorando così le prestazioni di addestramento distribuito. Le istanze P5 e P5e supportano fino a 3.200 Gbps di rete utilizzando l'Elastic Fabric Adapter (EFA) di seconda generazione. Le istanze P5en, con EFA di terza generazione che utilizza Nitro v5, mostrano un miglioramento della latenza fino al 35% rispetto alle istanze P5 che utilizzano la generazione precedente di EFA e Nitro. Ciò migliora le prestazioni delle comunicazioni collettive per carichi di lavoro di addestramento distribuito come deep learning, IA generativa, elaborazione dei dati in tempo reale e applicazioni di calcolo ad alte prestazioni (HPC). Per fornire capacità di elaborazione su larga scala a bassa latenza, queste istanze vengono distribuite in UltraClusters Amazon EC2 che consentono di scalare fino a 20.000 GPU H100 o H200 interconnesse con una rete non bloccante su scala petabyte. Le istanze P5, P5e e P5en in UltraClusters EC2 possono fornire fino a 20 exaflop di capacità di elaborazione aggregata, ovvero prestazioni equivalenti a quelle di un supercomputer.

Istanze P5 di Amazon EC2

Vantaggi

Addestra più di 100 miliardi di modelli di parametri su larga scala

Le istanze P5, P5e e P5en possono addestrare modelli di IA generativa su larga scala e offrire prestazioni fino a quattro volte superiori rispetto alle istanze EC2 basate su GPU di generazione precedente.

Riduci i tempi di soluzione ed esegui iterazioni più velocemente

Le istanze P5, P5e e P5en riducono i tempi di addestramento e di soluzione da settimane a pochi giorni. Questo ti aiuta a iterare a un ritmo più veloce e ad arrivare sul mercato più rapidamente.

Riduci i costi dell'infrastruttura DL e HPC

Le istanze P5, P5e e P5en consentono di risparmiare fino al 40% sui costi di addestramento DL e dell'infrastruttura HPC rispetto alle istanze EC2 basate su GPU di generazione precedente.

Esegui l'addestramento distribuito e HPC con elaborazione exascale

Le istanze P5, P5e e P5en forniscono fino a 3.200 Gb/s di rete EFA. Queste istanze sono implementate negli UltraCluster EC2 e offrono 20 exaflop di capacità di elaborazione aggregata.

Caratteristiche

GPU NVIDIA H100 e H200 Tensor Core

Le istanze P5 forniscono fino a 8 GPU NVIDIA H100 con un totale di 640 GB di memoria GPU HBM3 per istanza. Le istanze P5e e P5en forniscono fino a 8 GPU NVIDIA H200 con un totale di fino a 1.128 GB di memoria GPU HBM3e per istanza. Entrambe le istanze supportano fino a 900 GB/s di interconnessione GPU NVSwitch (per un totale di 3,6 TB/s di larghezza di banda bisezionale in ogni istanza), in modo che ogni GPU possa comunicare con ogni altra GPU nella stessa istanza con latenza single-hop.

Nuovo motore di trasformatore e istruzioni DPX

Le GPU H100 e H200 di NVIDIA dispongono di un motore di trasformatore che gestisce in modo intelligente e sceglie dinamicamente tra calcoli FP8 e 16 bit. Questa funzionalità consente di velocizzare l'addestramento DL sugli LLM rispetto alle GPU A100 della generazione precedente. Per i carichi di lavoro HPC, le GPU H100 e H200 di NVIDIA dispongono di nuove istruzioni DPX che accelerano ulteriormente gli algoritmi di programmazione dinamica rispetto alle GPU A100.

Rete ad alte prestazioni

Le istanze P5, P5e e P5en offrono fino a 3.200 Gb/s di rete EFA. EFA è inoltre abbinato a NVIDIA GPUDirect RDMA per consentire la comunicazione da GPU a GPU a bassa latenza tra i server con bypass del sistema operativo.

Archiviazione ad alte prestazioni

Le istanze P5, P5e e P5en supportano i file system Amazon FSx per Lustre, in modo da poter accedere ai dati con un throughput di centinaia di GB/s e milioni di IOPS necessari per carichi di lavoro DL e HPC su larga scala. Ogni istanza supporta inoltre fino a 30 TB di archiviazione SSD NVMe locale per un accesso rapido a grandi set di dati. Inoltre, è possibile utilizzare uno spazio di archiviazione economico e virtualmente illimitato con Amazon Simple Storage Service (Amazon S3).

Testimonianze dei clienti

Ecco alcuni esempi di come clienti e partner hanno raggiunto i loro obiettivi aziendali con le istanze Amazon EC2 P4.

Anthropic

Anthropic realizza sistemi di IA affidabili, interpretabili e orientabili che avranno molte opportunità di creare valore a livello commerciale e a vantaggio pubblico.

In Anthropic, stiamo lavorando per creare sistemi di IA affidabili, interpretabili e orientabili. Sebbene abbiano vantaggi significativi, i grandi sistemi di IA generali odierni possono anche essere imprevedibili, inaffidabili e opachi. Il nostro obiettivo è impegnarci per contribuire a risolvere questi problemi e implementare sistemi che le persone trovino utili. La nostra organizzazione è una delle poche al mondo che sta costruendo modelli di base nella ricerca sul DL. Questi modelli sono estremamente complessi. Per sviluppare e addestrare questi modelli all'avanguardia, dobbiamo implementarli in modo efficiente su grandi cluster di GPU. Attualmente facciamo largo impiego delle istanze P4 di Amazon EC2 e siamo entusiasti dell'introduzione delle istanze P5. Ci aspettiamo che offrano sostanziali vantaggi in termini di rapporto prezzo/prestazioni rispetto alle istanze P4d e che saranno disponibili sulla vasta scala necessaria per sviluppare LLM di nuova generazione e i prodotti correlati.

Tom Brown, cofondatore, Anthropic
Cohere

Cohere, uno dei principali pionieri nell'IA linguistica, consente a ogni sviluppatore e azienda di creare prodotti incredibili con una tecnologia di elaborazione del linguaggio naturale (NLP) leader a livello mondiale, mantenendo i propri dati privati e sicuri

Cohere è all'avanguardia nell'aiutare ogni azienda a sfruttare la potenza dell'IA linguistica per esplorare, generare, cercare e agire sulle informazioni in modo naturale e intuitivo, implementando le soluzioni su più piattaforme cloud nell'ambiente di dati più adatto per ciascun cliente. Le istanze Amazon EC2 P5 basate su NVIDIA H100 consentiranno alle aziende di creare, crescere e dimensionare più velocemente grazie alla loro potenza di calcolo combinata con le funzionalità all'avanguardia di LLM e IA generativa di Cohere.

Aidan Gomez, CEO, Cohere
Hugging Face

Hugging Face ha la missione di democratizzare un "buon" ML.

In qualità di community open source di ML in più rapida crescita, ora forniamo oltre 150.000 modelli preaddestrati e 25.000 set di dati sulla nostra piattaforma per la NLP, la visione artificiale, la biologia, l'apprendimento per rinforzo e altro ancora. Grazie ai significativi progressi negli LLM e nell'IA generativa, stiamo collaborando con AWS per sviluppare e contribuire ai modelli open source del prossimo futuro. Non vediamo l'ora di utilizzare le istanze Amazon EC2 P5 tramite Amazon SageMaker su larga scala in UltraCluster con EFA per accelerare la distribuzione di nuovi modelli di IA di base per tutti.

Julien Chaumond, CTO e cofondatore, Hugging Face

Dettagli prodotto

Dimensioni istanza	vCPU	Memoria istanza (TiB)	GPU	Memoria GPU	Larghezza di banda della rete (Gbps)	GPUDirect RDMA	Peer to peer GPU	Archiviazione dell’istanza (TB)	Larghezza di banda EBS (Gb/s)
p5.48xlarge	192	2	8 H100	640 GB HBM3	EFA da 3200 Gb/s	Sì	NVSwitch a 900 Gb/s	8 x 3.84 SSD NVMe	80
p5e.48xlarge	192	2	8 H200	1128 GB HBM3e	EFA da 3.200 Gb/s	Sì	NVSwitch a 900 Gb/s	8 x 3.84 SSD NVMe	80
p5en.48xlarge	192	2	8 H200	HBM3e da 1128 GB	EFA da 3200 Gbps	Sì	NVSwitch a 900 Gb/s	8 x 3.84 SSD NVMe	100

Nozioni di base sui casi d'uso di ML

Utilizzo di SageMaker

SageMaker è un servizio completamente gestito per la creazione, l'addestramento e l'implementazione di modelli di ML. Con SageMaker HyperPod, puoi scalare più facilmente fino a decine, centinaia o migliaia di GPU per addestrare rapidamente un modello su qualsiasi scala, senza preoccuparti di configurare e gestire cluster di addestramento resilienti.

Utilizzo di DLAMI o Container per il Deep Learning

Le DLAMI forniscono ai ricercatori e agli esperti di ML l'infrastruttura e gli strumenti nel cloud necessari per velocizzare i processi di DL su qualsiasi scala. I Container per il Deep Learning, immagini Docker preinstallate con framework di DL, semplificano l'implementazione degli ambienti di ML personalizzati poiché consentono di saltare il complicato processo di creazione e ottimizzazione degli ambienti ex novo.

Utilizzo di Amazon EKS o Amazon ECS

Se preferisci gestire i tuoi carichi di lavoro containerizzati tramite i servizi di orchestrazione dei container, puoi implementare le istanze P5, P5e e P5en con Amazon EKS o Amazon ECS.

Nozioni di base sull'High Performance Computing in AWS

Le istanze P5, P5e e P5en rappresentano una piattaforma ideale per eseguire simulazioni ingegneristiche, finanza computazionale, analisi sismiche, modellazione molecolare, genomica, rendering e altri carichi di lavoro HPC basati su GPU. Le applicazioni HPC spesso richiedono prestazioni di rete elevate, storage veloce, grandi quantità di memoria e funzioni di elaborazione di alto livello o tutte queste caratteristiche insieme. Tutti e tre i tipi di istanza supportano EFA che consente alle applicazioni HPC che utilizzano Message Passing Interface (MPI) di scalare fino a migliaia di GPU. Batch AWS e AWS ParallelCluster consentono agli sviluppatori HPC di creare e dimensionare rapidamente applicazioni HPC distribuite.

Ulteriori informazioni

Inizia a usare AWS

Fase 1: Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.

Ulteriori informazioni

Fase 2: Impara con i tutorial di 10 minuti

Apprendi nuove nozioni con semplici tutorial.

Ulteriori informazioni

Fase 3: Inizia a lavorare con AWS

Inizia a creare con le guide dettagliate che ti aiutano a lanciare il tuo progetto AWS.

Ulteriori informazioni

Istanze P5 di Amazon EC2

Perché scegliere le istanze Amazon EC2 P5?

Istanze P5 di Amazon EC2

Vantaggi

Addestra più di 100 miliardi di modelli di parametri su larga scala

Riduci i tempi di soluzione ed esegui iterazioni più velocemente

Riduci i costi dell'infrastruttura DL e HPC

Esegui l'addestramento distribuito e HPC con elaborazione exascale

Caratteristiche

GPU NVIDIA H100 e H200 Tensor Core

Nuovo motore di trasformatore e istruzioni DPX

Rete ad alte prestazioni

Archiviazione ad alte prestazioni

Testimonianze dei clienti

Anthropic

Cohere

Hugging Face

Dettagli prodotto

Nozioni di base sui casi d'uso di ML

Utilizzo di SageMaker

Utilizzo di DLAMI o Container per il Deep Learning

Utilizzo di Amazon EKS o Amazon ECS

Nozioni di base sull'High Performance Computing in AWS

Inizia a usare AWS

Fase 1: Registrati per creare un account AWS

Fase 2: Impara con i tutorial di 10 minuti

Fase 3: Inizia a lavorare con AWS

Fine del supporto per Internet Explorer