AWS Trainium

Maliyetleri düşürürken derin öğrenme ve üretici yapay zekâ eğitimi için yüksek performans elde edin

Neden Trainium?

AWS Trainium yongaları bir yandan maliyetleri düşürürken diğer yandan yüksek performans sunmak üzere AWS tarafından yapay zeka eğitimi ve çıkarım için amaca yönelik olarak tasarlanmış bir yapay zeka yongaları ailesidir.

Birinci nesil AWS Trainium yongası, benzer Amazon EC2 bulut sunucularına kıyasla %50'ye kadar daha düşük eğitim maliyetleri içeren Amazon Elastic Compute Cloud (Amazon EC2) Trn1 bulut sunucularına güç vermektedir. Databricks, Ricoh, NinjaTech AI ve Arcee AI dahil birçok müşteri, Trn1 bulut sunucularının performans ve maliyet avantajlarından yararlanmaktadır.

AWS Trainium2 yongası, birinci nesil Trainium'a kıyasla 4 kata kadar daha yüksek performans sunar. Trainium2 tabanlı Amazon EC2 Trn2 bulut sunucuları, üretken yapay zeka için amaca yönelik olarak oluşturulmuştur ve yüz milyarlar ila trilyon üzeri parametreye sahip modelleri eğitmek ve dağıtmak için kullanılabilecek en güçlü EC2 bulut sunucularıdır. Trn2 bulut sunucuları, güncel nesil GPU tabanlı EC2 P5e ve P5en bulut sunucularına kıyasla %30-40 daha iyi bir fiyat performansı sunar. Trn2 bulut sunucuları, özel yonga-yonga ara bağlantımız olan NeuronLink ile birbirine bağlanmış 16 Trainium2 yongasına sahiptir. Çok çeşitli yeni nesil üretken yapay zeka uygulamaları oluşturmak için büyük dil modelleri (LLM'ler), çok modlu modeller, difüzyon transformatörleri dahil olmak üzere en zorlu modelleri eğitmek ve dağıtmak için Trn2 bulut sunucularını kullanabilirsiniz. Tamamen yeni bir EC2 teklifi olan Trn2 UltraServer'lar (önizlemede kullanılabilir), bağımsız EC2 bulut sunucularının sağlayabileceğinden daha fazla bellek ve bellek bant genişliği gerektiren en büyük modeller için idealdir. UltraServer tasarımı, NeuronLink'i kullanmak suretiyle dört Trn2 bulut sunucusu genelinde 64 Trainium2 yongasını tek bir düğümde birbirine bağlayarak yeni özelliklerin önünü açmaktadır. Çıkarım açısından UltraServer'lar, en iyi gerçek zamanlı deneyimleri oluşturmak üzere sektör lideri yanıt süreleri sağlamaya yardımcı olur. Eğitim açısından UltraServer'lar, bağımsız bulut sunucularına kıyasla model paralelliği için daha hızlı toplu iletişim ile model eğitim hızını ve verimliliğini artırır.

PyTorch ve JAX gibi popüler makine öğrenimi (ML) çerçeveleri için sunulan yerel destek sayesinde Trn2 ve Trn1 bulut sunucularında modelleri eğitmeye ve dağıtmaya başlayabilirsiniz.

Avantajlar

Trn2 UltraServer'ları ve bulut sunucuları, üretken yapay zeka eğitimi ve çıkarımı için Amazon EC2'de çığır açan performans sağlar. Her Trn2 UltraServer, tescilli yongadan yongaya ara bağlantımız olan NeuronLink ile birbirine bağlı 64 adet Trainium2 yongasına sahiptir ve 83,2 petaflop'a kadar FP8 işlem, saniyede 185 terabayt (TB/sn.) bellek bant genişliğine sahip 6 TB HBM3 ve saniyede 12,8 terabit (Tb/sn.) Esnek Yapı Bağdaştırıcısı (EFA) ağ iletişimi sağlar. Her Trn2 bulut sunucusu, NeuronLink ile bağlı 16 adet Trainium2 yongasına sahiptir ve 20,8 petaflop'a kadar FP8 işlem, 46 TB/sn. bellek bant genişliğine sahip 1,5 TB HBM3 ve 3,2 Tb/sn. EFA ağ iletişimi sağlar. Trn1 bulut sunucusu 16 adede kadar Trainium yongasına sahiptir ve 3 petaflop'a kadar FP8 işlem, 9,8 TB/sn. bellek bant genişliğine sahip 512 GB HBM ve 1,6 Tb/sn.'ye kadar EFA ağ iletişimi sağlar.

AWS Neuron SDK, Trn2 ve Trn1 bulut sunucularından tam performansı elde etmenize yardımcı olur, böylece modeller oluşturmaya ve dağıtmaya ve pazara ulaşma sürenizi hızlandırmaya odaklanabilirsiniz. AWS Neuron; JAX ve PyTorch'un yanı sıra Hugging Face, PyTorch Lightning ve NeMo gibi gerekli kitaplıklarla yerel olarak entegre olur. AWS Neuron, Meta'nın Llama model ailesi ve Stable Diffusion XL gibi popüler modeller dahil olmak üzere Hugging Face model merkezindeki 100.000'den fazla modeli destekler. Profilleme ve hata ayıklama için derin öngörüler sağlarken, modelleri dağıtılmış eğitim ve çıkarım için kullanıma hazır halde sunar. AWS Neuron hem Amazon SageMaker, Amazon Esnek Kubernetes Hizmeti (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster ve AWS Toplu İşlem gibi hizmetlerle hem de Ray (Anyscale), Domino Data Lab ve Datadog gibi üçüncü taraf hizmetleriyle entegrasyon sağlar.

Trainium yongaları, doğruluk hedeflerini karşılarken yüksek performans sunmak için FP32, TF32, BF16, FP16 ve yeni yapılandırılabilir FP8 (cFP8) veri türü için optimize edilmiştir. Üretken yapay zekadaki yüksek inovasyon hızını desteklemek amacıyla Trainium2, 4x seyreklik (16:4), mikro ölçekleme, stokastik yuvarlama ve tahsis edilmiş kolektif altyapılar için donanım optimizasyonlarına sahiptir.

Nöron Kernel Arabirimi (NKI), Triton benzeri bir arabirime sahip Python tabanlı bir ortam kullanarak komut seti mimarisine (ISA) doğrudan erişim imkanı sağlar ve mevcut tekniklerden daha iyi performans gösteren yeni model mimarilerinde ve son derece optimize edilmiş işlem kernellerinde inovasyonlar yapmanıza olanak tanır.

Trn2 bulut sunucuları, Trn1 bulut sunucularından üç kat daha fazla enerji verimliliğine sahip olacak şekilde tasarlanmıştır. Trn1 bulut sunucuları, benzer hızlandırılmış işlem EC2 bulut sunucularına kıyasla %25'e kadar daha fazla enerji verimliliğine sahiptir. Bu bulut sunucuları, ultra büyük modelleri eğitirken sürdürülebilirlik hedeflerinize ulaşmanıza yardımcı olur.

Videolar

Yapay zeka performansını, maliyetini ve ölçeğini fethedin
Çığır açan yapay zeka performansı için AWS Trainium2
AWS YZ çipleri müşteri hikayeleri