Amazon EC2 Trn2 bulut sunucuları ve UltraServers

Üretken yapay zeka eğitimi ve çıkarımı için en güçlü EC2 işlemi

Neden Amazon EC2 Trn2 bulut sunucuları ve UltraServer'lar?

16 AWS Trainium2 yongasıyla desteklenen Amazon EC2 Trn2 bulut sunucuları, üretken yapay zeka için amaca yönelik olarak oluşturulmuştur ve yüz milyarlar ila trilyon üzeri parametreye sahip modelleri eğitmek ve dağıtmak için kullanılabilecek en güçlü EC2 bulut sunucularıdır. Trn2 bulut sunucuları, güncel nesil GPU tabanlı EC2 P5e ve P5en bulut sunucularına kıyasla %30-40 daha iyi bir fiyat performansı sunar. Trn2 bulut sunucuları ile bir yandan maliyetleri düşürürken, diğer yandan son teknoloji eğitim ve çıkarım performansı elde edebilir, böylece eğitim sürelerini kısaltabilir, daha hızlı yineleme yapabilir ve gerçek zamanlı, yapay zeka destekli deneyimler sunabilirsiniz. Yeni nesil üretken yapay zeka uygulamaları oluşturmak için büyük dil modelleri (LLM'ler), çok modlu modeller ve difüzyon transformatörleri dahil olmak üzere modelleri eğitmek ve dağıtmak için Trn2 bulut sunucularını kullanabilirsiniz.

Eğitim sürelerini kısaltmak ve en zorlu, son teknoloji modeller için çığır açan yanıt süreleri (belirteç başına gecikme süresi) sağlamak için tek bir bulut sunucusunun sağlayabileceğinden daha fazla işlem gücüne ve belleğe ihtiyacınız olabilir. Trn2 UltraServer'lar, dört Trn2 bulut sunucusunda 64 Trainium2 yongasını bağlamak için özel yonga-yonga ara bağlantımız olan NeuronLink'i kullanır. Böylece tek bir düğümde kullanılabilen işlem, bellek ve ağ bant genişliğini dört katına çıkararak derin öğrenme ve üretken yapay zeka iş yükleri için AWS'de çığır açan performans sunar. Çıkarım açısından UltraServer'lar, en iyi gerçek zamanlı deneyimleri oluşturmak üzere sektör lideri yanıt süreleri sağlamaya yardımcı olur. Eğitim açısından UltraServer'lar, bağımsız bulut sunucularına kıyasla model paralelliği için daha hızlı toplu iletişim ile model eğitim hızını ve verimliliğini artırır.

PyTorch ve JAX gibi popüler makine öğrenimi (ML) çerçeveleri için sunulan yerel destek sayesinde Trn2 bulut sunucularını ve Trn2 UltraServer'ları kolayca kullanmaya başlayabilirsiniz.

Avantajlar

En güçlü EC2 bulut sunucuları konumunda olan Trn2 bulut sunucuları, eğitim sürelerinizi azaltmanıza ve son kullanıcılarınıza gerçek zamanlı çıkarım deneyimi sunmanıza yardımcı olur. Trn2 bulut sunucuları, tescilli yongadan yongaya ara bağlantımız olan NeuronLink ile birbirine bağlı 16 adet Trainium2 yongası sayesinde 20,8 FP8 petaflop'a kadar işlem sağlar. Trn2 bulut sunucuları, saniyede 46 terabayt (TB/sn.) bellek bant genişliğine sahip toplam 1,5 TB HBM3 ve saniyede 3,2 terabit (Tb/sn.) Esnek Yapı Bağdaştırıcısı ağ iletişimi (EFAv3) içerir. Trn2 UltraServer'ları (önizlemede kullanılabilir), NeuronLink ile birbirine bağlı 64 adet Trainium2 yongasına sahiptir ve 83,2 petaflop'a kadar FP8 işlem, 185 TB/sn. toplam bellek bant genişliğine sahip 6 TB toplam yüksek bant genişliğinde bellek ve 12,8 Tb/sn. EFAv3 ağ iletişimi sağlar.

Verimli dağıtılmış eğitimi mümkün kılmak amacıyla; Trn2 bulut sunucuları 3,2 Tb/sn., Trn2 UltraServer'ları ise 12,8 Tb/sn. EFAv3 ağ iletişimi sağlar. EFA'nın AWS Nitro System üzerine inşa edilmiş olması sayesinde, EFA aracılığıyla yapılan tüm iletişimler, herhangi bir performans kaybına uğramadan taşıma sırasında şifrelenir. EFA ayrıca, yüz binlerce Trainium2 yongasına güvenilir bir şekilde ölçeklenmesini mümkün kılan karmaşık bir trafik yönlendirme ve tıkanıklık denetim protokolü kullanır. Trn2 bulut sunucuları ve UltraServer'ları; tek petabit ölçekli, engelleyici olmayan ağda on binlerce Trainium yongası genelinde ölçeği genişletilebilir dağıtılmış eğitim sağlamak için EC2 UltraCluster'larında dağıtılmaktadır.

Trn2 bulut sunucuları, güncel nesil GPU tabanlı EC2 P5e ve P5en bulut sunucularına kıyasla %30-40 daha iyi bir fiyat performansı sunar.

Trn2 bulut sunucuları, Trn1 bulut sunucularından 3 kat daha fazla enerji verimliliğine sahiptir. Bu bulut sunucuları ve içerdikleri yongalar, üretken yapay zeka iş yüklerini büyük ölçekte çalıştırırken yüksek enerji verimliliği sağlamak için gelişmiş silikon süreçleri ve donanım ve yazılım optimizasyonları kullanır.

AWS Neuron SDK, Trn2 bulut sunucularından ve UltraServer'larından tam performansı elde etmenize yardımcı olur, böylece modeller oluşturmaya ve dağıtmaya ve pazara ulaşma sürenizi hızlandırmaya odaklanabilirsiniz. Neuron; JAX ve PyTorch'un yanı sıra Hugging Face, PyTorch Lightning ve NeMo gibi gerekli kitaplıklarla yerel olarak entegre olur. Neuron, açık kaynak PyTorch kitaplıkları NxD Training ve NxD Inference ile dağıtılmış eğitim ve çıkarım için kullanıma hazır optimizasyonlar içermesinin yanı sıra profil oluşturma ve hata ayıklama için derin öngörüler sağlar. Neuron ayrıca stable HLO ve GSPMD dahil olmak üzere OpenXLA'yı destekleyerek PyTorch/XLA ve JAX geliştiricilerinin Neuron'un Inferentia ve Trainium'a yönelik derleyici optimizasyonlarını kullanmalarına imkan tanır. Neuron ile Trn2 bulut sunucularını Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster ve AWS Toplu İşlem gibi hizmetlerin yanı sıra Ray (Anyscale), Domino Data Lab ve Datadog gibi üçüncü taraf hizmetleriyle birlikte kullanabilirsiniz.

Özellikler

Trn2 bulut sunucuları, NeuronLink ile birbirine bağlı 16 adet Trainium2 yongası sayesinde 20,8 FP8 petaflop'a kadar işlem sağlar. Trn2 UltraServer'ları, NeuronLink bağlantısını dört Trn2 bulut sunucusu arasında 64 Trainium2 yongasına genişletir ve 83,2 FP8 petaflop'a kadar işlem sağlar.

Trn2 bulut sunucuları, toplam 46 TB/sn. bellek bant genişliği ile 1,5 TB hızlandırıcı belleği sağlar. Trn2 UltraServer'ları, ultra büyük altyapı modellerini barındırmak için 185 TB/sn. toplam bellek bant genişliği ile 6 TB paylaşılan hızlandırıcı belleği sunar.

Ultra büyük altyapı modellerinin ölçeği genişletilebilir dağıtılmış eğitimini desteklemek amacıyla, Trn2 bulut sunucuları 3,2 Tb/sn. ve Trn2 UltraServer'ları 12,8 Tb/sn. EFAv3 ağ bant genişliği sağlar. EFAv3, EC2 UltraCluster'ları ile birleştirildiğinde, EFAv2'ye kıyasla daha düşük ağ gecikme süresi sağlar. Büyük veri kümelerine daha hızlı erişim için her Trn2 bulut sunucusu 8 TB'a kadar ve her Trn2 UltraServer'ı 32 TB'a kadar yerel NVMe depolama alanını destekler.

Trn2 bulut sunucuları ve UltraServer'ları; FP32, TF32, BF16, FP16 ve yapılandırılabilir FP8 (cFP8) veri türlerini destekler. Ayrıca 4x seyreklik (16:4), stokastik yuvarlama ve tahsis edilmiş kolektif altyapılar dahil olmak üzere en son yapay zeka optimizasyonlarını destekler. Nöron Kernel Arabirimi (NKI), Triton benzeri bir arabirime sahip Python tabanlı bir ortam kullanarak komut seti mimarisine (ISA) doğrudan erişim imkanı sağlar ve mevcut tekniklerden daha iyi performans gösteren yeni model mimarilerinde ve son derece optimize edilmiş işlem kernellerinde inovasyonlar yapmanıza olanak tanır.

Neuron; Llama ve Stable Diffusion gibi popüler model mimarileri de dahil olmak üzere Trn2'de eğitim ve dağıtım için Hugging Face model merkezindeki 100.000'den fazla modeli destekler. Neuron; JAX ve PyTorch'un yanı sıra NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab ve Data Dog gibi gerekli araç, çerçeve ve kitaplıklarla yerel olarak entegre olur. Profilleme ve hata ayıklama için derin öngörüler sağlarken, modelleri dağıtılmış eğitim ve çıkarım için kullanıma hazır halde sunar. Neuron ayrıca Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster ve AWS Toplu İşlem gibi hizmetlerle entegre olur.

Müşteri ve çözüm ortağı görüşleri

Müşteriler ve çözüm ortaklarının, Amazon EC2 Trn2 bulut sunucularıyla iş hedeflerine nasıl ulaşmayı planladıklarına ilişkin bazı örnekleri aşağıda bulabilirsiniz.

  • Anthropic

    Anthropic'te milyonlarca insan işleri için her gün Claude'a güveniyor. AWS ile ilgili iki önemli gelişmeyi duyuruyoruz: Birincisi, Amazon Bedrock aracılığıyla Trainium2'de %60 daha hızlı çalışan, Claude 3.5 Haiku için yeni bir "gecikme için optimize edilmiş moddur". İkincisi ise, önceki kümemizin boyutunun 5 katından büyük olan ve yüzlerce exaflop sağlayan yüz binlerce Trainium2 yongasıyla yeni bir küme olan Project Rainier'dır. Project Rainier, hem araştırmamızı hem de yeni nesil ölçeklendirmemizi güçlendirmeye yardımcı olacak. Müşterilerimiz için bu, daha fazla zeka, daha düşük fiyatlar ve daha yüksek hızlar anlamına geliyor. Sadece daha hızlı yapay zeka oluşturmakla kalmıyoruz, ölçeklenebilen güvenilir yapay zeka inşa ediyoruz.

    Tom Brown, İşlem Direktörü, Anthropic
  • Databricks

    Databricks Mosaic AI, kuruluşların kaliteli Temsilci Sistemleri oluşturmasına ve dağıtmasına olanak tanır. Yerel olarak veri gölü evinin üzerine inşa edilmiştir ve müşterilerin modellerini kurumsal verilerle kolayca ve güvenli bir şekilde özelleştirmelerine ve daha doğru ve etki alanına özgü çıktılar sunmalarına olanak tanır. Trainium'un yüksek performansı ve uygun maliyetli olması sayesinde, müşteriler model eğitimini Mosaic AI üzerinde düşük maliyetle ölçeklendirebilmektedir. Mosaic AI'ya olan talep tüm müşteri segmentleri genelinde ve dünya çapında artmaya devam ettiğinden, Trainium2'nin erişilebilirliği Databricks ve müşterileri için büyük bir avantaj olacaktır. Dünyanın en büyük veri ve yapay zeka şirketlerinden biri olan Databricks, müşterileri için daha iyi sonuçlar sunmak ve TCO'yu %30'a kadar düşürmek için TRN2'yi kullanmayı planlıyor.

    Naveen Rao, Üretken Yapay Zeka Başkan Yardımcısı, Databricks
  • poolside

    poolside'da, yapay zekanın ekonomik açıdan değerli çalışmaların ve bilimsel ilerlemenin büyük çoğunluğunu yönlendireceği bir dünya inşa etmeye hazırız. Yazılım geliştirme sürecinin, sinir ağlarında insan düzeyinde zekaya ulaşan ilk önemli yetenek olacağına inanıyoruz çünkü burası, Arama ve Öğrenme yaklaşımlarını en iyi şekilde birleştirebileceğimiz etki alanıdır. Bunu sağlamak üzere altyapı modelleri, bir API ve üretken yapay zekanın gücünü geliştiricilerinizin ellerine (veya klavyesine) getirmek için bir Asistan oluşturuyoruz. Bu teknolojiyi sağlamanın önemli bir anahtarı, ürünlerimizi oluşturmak ve çalıştırmak için kullandığımız altyapıdır. AWS Trainium2 ile müşterilerimiz, poolside kullanımlarını diğer yapay zeka hızlandırıcılarından çok farklı bir fiyat performansı ile ölçeklendirebilecek. Ayrıca Trainium2 UltraServers ile, EC2 P5 bulut sunucularına kıyasla beklenen %40 tasarrufla gelecekteki modelleri eğitmeyi planlıyoruz.

    Eiso Kant, CTO ve Kurucu Ortak, poolside
  • Itaú Unibanco

    Itaú Unibanco'nun amacı, insanların parayla olan ilişkilerini geliştirmek, yaşamları üzerinde olumlu etkiler yaratırken dönüşüm fırsatlarını genişletmektir. Itaú Unibanco'da her müşterinin benzersiz olduğuna inanıyoruz ve tüketici alışkanlıklarına sürekli uyum sağlamak için yapay zekanın gücünden yararlanan sezgisel dijital yolculuklarla ihtiyaçlarını karşılamaya odaklanıyoruz.

    AWS Trainium ve Inferentia'yı standart çıkarımdan ince ayarlanmış uygulamalara kadar çeşitli görevlerde test ettik. Bu yapay zeka yongalarının performansı, araştırma ve geliştirme sürecimizde önemli kilometre taşlarına ulaşmamızı sağladı. Hem toplu hem de çevrimiçi çıkarım görevleri için, GPU'lara kıyasla aktarım hızında 7 kat iyileşme gördük. Bu gelişmiş performans, kuruluş genelinde daha fazla kullanım örneğine genişleme imkanı sağlıyor. En yeni nesil Trainium2 yongaları, GenAI için çığır açan özelliklerin ve Itau'da inovasyonun kapısını açıyor.

    Vitor Azeka, Veri Bilimi Başkanı, Itaú Unibanco
  • NinjaTech AI

    Ninja, Sınırsız Üretkenlik için Hepsi Bir Arada Yapay Zeka Temsilcisidir: Tek bir abonelikle yazma, kodlama, beyin fırtınası, görüntü oluşturma, çevrimiçi arama gibi başlıca yapay zeka becerileriyle birlikte dünyanın en iyi yapay zeka modellerine sınırsız erişim elde edersiniz. Ninja bir temsilci platformudur ve sınırları zorlayan altyapı modellerine benzer (bazı kategorilerde çok daha üstün) ve dünya standartlarında doğruluk içeren bir Temsilci Karışımı kullanan bir "Süper Temsilci" sunar. Ninja'nın Temsilci teknolojisi, müşterilerimizin beklediği benzersiz gerçek zamanlı deneyimleri sunmak için en yüksek performanslı hızlandırıcıları gerektirir. 

    AWS TRN2'nin lansmanı için son derece heyecanlıyız çünkü Llama 3.1 405B'yi temel alan ana modelimiz Ninja LLM için belirteç başına en iyi performansı ve mevcut durumda mümkün olan en yüksek hızı sunacağına inanıyoruz. Trn2'nin düşük gecikme süresinin rekabetçi fiyatlar ve istek üzerine erişilebilirlik ile birleştiğini görmek harika. Trn2'nin gelişi konusunda çok heyecanlıyız!

    Babak Pahlavan, Kurucu ve CEO, NinjaTech AI
  • Ricoh

    RICOH makine öğrenimi ekibi, kurumsal çözümlerimiz genelinde bilgi akışını yönetmek ve optimize etmek için tasarlanmış iş yeri çözümleri ve dijital dönüşüm hizmetleri geliştirir.

    Trn1 bulut sunucularına geçmek kolay ve direkt oldu. 4.096 Trainium yongasından oluşan bir küme kullanarak 13B parametreli LLM'mize sadece 8 günde ön eğitim sağlayabildik. Daha küçük modelimizde gördüğümüz başarıdan sonra, Llama-3-Swallow-70B'yi temel alarak daha büyük ve yeni bir LLM'ye ince ayar uyguladık ve Trainium'dan yararlanarak AWS'deki en yeni GPU makinelerinin kullanımına kıyasla eğitim maliyetlerimizi %50 azaltabildik ve enerji verimliliğini %25 artırabildik. Müşterilerimize en iyi performansı en düşük maliyetle sunmaya devam etmek için, en yeni nesil AWS Yapay Zeka Yongaları olan Trainium2'den yararlanmaktan heyecan duyuyoruz.

    Yoshiaki Umetsu, Direktör, Dijital Teknoloji Geliştirme Merkezi, Ricoh
  • PyTorch

    AWS Neuron NxD Inference kitaplığı hakkında en sevdiğim şey, PyTorch modelleriyle sorunsuz bir şekilde entegre olmasıdır. NxD'nin yaklaşımı direkt ve kullanıcı dostudur. Ekibimiz HuggingFace PyTorch modellerini kısa bir zaman diliminde minimum kod değişikliği ile entegre edebildi. Sürekli Toplu İşleme ve Spekülatif Kod Çözme gibi gelişmiş özellikleri etkinleştirmek basitti. Bu kullanım kolaylığı geliştirici üretkenliğini artırarak ekiplerin inovasyona daha fazla ve entegrasyon zorluklarına daha az odaklanmasına olanak tanır.

    Hamid Shojanazeri, PyTorch Ortağı Mühendislik Lideri, Meta
  • Refact.ai

    Refact.ai, daha doğru öneriler sağlayan Almayla Artırılmış Üretim (RAG) tarafından desteklenmiş kod otomatik tamamlaması ve hem tescilli hem de açık kaynaklı modelleri kullanan bağlama duyarlı sohbet gibi kapsamlı AI araçları sunar.

    Müşteriler EC2 Inf2 bulut sunucularında EC2 G5 bulut sunucularına kıyasla %20'ye kadar daha yüksek performans ve dolar başına 1,5 kat daha yüksek belirteç gördü. Refact.ai'ın ince ayar yetenekleri, müşterilerimizin kuruluşlarına yönelik benzersiz kod tabanını ve ortamını anlama ve bunlara uyum sağlama yeteneklerini daha da geliştirir. Ayrıca iş akışlarımıza daha hızlı ve daha verimli bir işleme süreci sağlayacak Trainium2'nin yeteneklerini sunmaktan heyecan duyuyoruz. Bu gelişmiş teknoloji, müşterilerimizin kod tabanları için katı güvenlik standartlarını korurken geliştirici üretkenliğini artırarak yazılım geliştirme süreçlerini hızlandırmalarını sağlayacaktır.

    Oleg Klimov, CEO ve Kurucu, Refact.ai
  • Karakuri Inc.

    KARAKURI, web tabanlı müşteri desteğinin verimliliğini artırmak ve müşteri deneyimlerini basitleştirmek için yapay zeka araçları oluşturmaktadır. Bu araçlar, üretken yapay zeka işlevleriyle donatılmış AI sohbet robotlarını, SSS merkezileştirme araçlarını ve tümü müşteri desteğinin verimliliğini ve kalitesini artıran bir e-posta yanıt aracını içerir. AWS Trainium'u kullanarak KARAKURI LM 8x7B Chat v0.1'i eğitmeyi başardık. Kendimiz gibi startup'lar için, LLM'leri eğitmek için gereken oluşturma süresini ve maliyeti optimize etmemiz gerekiyor. AWS Trainium ve AWS Ekibinin desteğiyle kısa sürede pratik düzeyde bir LLM geliştirmeyi başardık. Ayrıca AWS Inferentia'yı benimseyerek hızlı ve uygun maliyetli bir çıkarım hizmeti oluşturabildik. Trainium2 konusunda çok heyecanlıyız çünkü eğitim sürecimizde devrim yaratacak, eğitim süremizi 2 kat azaltacak ve verimliliği yeni zirvelere taşıyacak!

    Tomofumi Nakayama, Kurucu Ortak, Karakuri Inc.
  • Stockmark Inc.

    "Değer yaratma mekanizmasını yeniden tasarlayarak insanlığı ilerletme" misyonuyla Stockmark, en son doğal dil işleme teknolojilerini sağlaması sayesinde birçok şirketin yenilikçi işletmeler oluşturup kurmasına yardımcı olur. Stockmark'ın yeni veri analiz ve toplama hizmeti olan Anews ve bir kuruluşta depolanan tüm biçimlerdeki bilgileri düzenlemek suretiyle üretken yapay zeka kullanımlarını ciddi ölçüde geliştiren bir veri yapılandırma hizmeti olan SAT, bu ürünleri desteklemek üzere modelleri oluşturup dağıtma şeklimizi yeniden tasarlamamızı gerektiriyordu. 256 Trainium hızlandırıcıyla, 220 milyar belirteçten oluşan bir Japon derlem veri kümesi üzerinde sıfırdan ön eğitim sağlanmış, 13 milyar parametreye sahip büyük bir dil modeli olan stockmark-13b'yi geliştirdik ve yayınladık. Trn1 bulut sunucuları eğitim maliyetlerimizi %20 oranında azaltmamıza yardımcı oldu. Trainium'dan yararlanarak, profesyoneller için iş açısından kritik soruları benzeri görülmemiş bir doğruluk ve hızla cevaplayabilen bir LLM'yi başarılı şekilde geliştirdik. Bu başarı, şirketlerin model geliştirme için yeterli bilgi işlem kaynaklarını güvence altına alma konusunda karşılaştıkları yaygın zorluklar göz önüne alındığında özellikle dikkate değerdir. Trn1 bulut sunucularının etkileyici hızı ve maliyeti azaltması sayesinde, Trainium2'nin iş akışlarımıza ve müşterilerimize getireceği ek avantajları görmekten heyecan duyuyoruz.

    Kosuke Arima, CTO ve Kurucu Ortak, Stockmark Inc.
  • Brave

    Brave, kullanıcı gizliliği ve güvenliğine öncelik vermeye odaklanan bağımsız bir tarayıcı ve arama altyapısıdır. 70 milyondan fazla kullanıcıyla, web'i daha güvenli ve daha kullanıcı dostu hale getiren sektör lideri korumalar sunuyoruz. Kullanıcı merkezli yaklaşımlardan uzaklaşan diğer platformların aksine Brave; gizliliği, güvenliği ve rahatlığı ilk sıraya koymaya kararlıdır. Temel özellikler arasında zararlı betikleri ve izleyicileri engelleme, LLM'ler tarafından desteklenen yapay zeka destekli sayfa özetleri, yerleşik VPN hizmetleri ve daha fazlası bulunur. Arama hizmetlerimizin ve yapay zeka modellerimizin hızını ve maliyet verimliliğini artırmak için sürekli çalışıyoruz. Bunu desteklemek üzere, ölçeği milyarlarca arama sorgusunu ele alacak şekilde artırırken kullanıcı deneyimini iyileştirmek için, Trainium2 dahil AWS AI yongalarının en son yeteneklerinden yararlanmaktan heyecan duyuyoruz.

    Subu Sathyanarayana, Mühendislik Başkan Yardımcısı, Brave Software
  • Anyscale

    Anyscale, makine öğrenimini ve işletmeler için Üretken Yapay Zeka girişimlerini destekleyen bir AI İşlem Altyapısı olan Ray'in arkasındaki şirkettir. Anyscale'in RayTurbo tarafından desteklenen birleşik yapay zeka platformuyla müşteriler 4,5 kata kadar daha hızlı veri işleme, LLM'lerle 10 kat daha düşük maliyetli toplu çıkarım, 5 kat daha hızlı ölçeklendirme, 12 kat daha hızlı yineleme ve kaynakların kullanımını optimize ederek çevrimiçi model çıkarımı için %50 maliyet tasarrufu elde eder.

    Anyscale olarak, yapay zeka iş yüklerini verimli ve uygun maliyetli bir şekilde ölçeklendirmek üzere işletmeleri en iyi araçlarla güçlendirmeye kararlıyız. RayTurbo çalışma zamanı ile desteklenen, AWS Trainium ve Inferentia yongaları için yerel destek sayesinde müşterilerimiz model eğitimi ve sunumu için yüksek performanslı, uygun maliyetli seçeneklere erişebilmektedir. AWS ile Trainium2 üzerinde güçlerimizi birleştirerek müşterilerimizin hızla yenilik yapmaları ve yüksek performanslı dönüştürücü yapay zeka deneyimlerini geniş ölçekte sunmaları için yeni fırsatların kapısını açmaktan heyecan duyuyoruz.

    Robert Nishihara, Kurucu Ortak, Anyscale
  • Datadog

    Bulut uygulamaları için gözlemlenebilirlik ve güvenlik platformu olan Datadog, müşterilerin model performansını optimize etmeleri, verimliliği artırmaları ve maliyetleri düşürmeleri için AWS Trainium ve Inferentia İzleme işlevleri sağlar. Datadog entegrasyonu, makine öğrenimi işlemlerine ve temeldeki yonga performansına ilişkin tam görünürlük sağlayarak proaktif sorun çözümü ve sorunsuz altyapı ölçeklendirmesi temin eder. Kullanıcıların yapay zeka altyapısı maliyetlerini %50'ye kadar azaltmalarına ve model eğitimi ve dağıtım performansını artırmalarına yardımcı olacak AWS Trainium2 lansmanı için AWS ile ortaklığımızı genişletmekten heyecan duyuyoruz.

    Yrieix Garnier, Ürün Başkan Yardımcısı, Datadog
  • Hugging Face

    Hugging Face; 5 milyondan fazla araştırmacı, veri bilimcisi, makine öğrenimi mühendisi ve yazılım geliştiricisinden oluşan bir topluluk tarafından paylaşılan 2 milyondan fazla model, veri kümesi ve yapay zeka uygulamasıyla AI geliştiricileri için önde gelen bir açık platformdur. Son birkaç yıldır AWS ile iş birliği yaparak geliştiricilerin Optimum Neuron açık kaynak kitaplığı aracılığıyla AWS Inferentia ve Trainium'un performans ve maliyet avantajlarını deneyimlemelerini kolaylaştırıyoruz. Hugging Face Çıkarım Uç Noktalarına entegre olan ve artık yeni HUGS kendi kendine dağıtım hizmetimiz dahilinde optimize edilen Optimum Neuron açık kaynak kitaplığı, AWS Marketplace'te kullanıma sunulmaktadır. Trainium2'nin piyasaya sürülmesiyle, kullanıcılarımız modelleri daha hızlı geliştirmek ve dağıtmak üzere daha da yüksek performansa erişecekler.

    Jeff Boudier, Ürün Başkanı, Hugging Face
  • Lightning AI

    PyTorch Lightning ve Lightning Studios'un yaratıcısı Lightning AI, kurumsal düzeyde yapay zeka için en sezgisel, hepsi bir arada AI geliştirme platformunu sunuyor. Lightning; temsilciler, yapay zeka uygulamaları ve üretken yapay zeka çözümlerini yıldırım hızında oluşturmak için tam kodlu, düşük kodlu ve kodsuz araçlar sağlar. Esneklik için tasarlanan bu sistem, 3 milyondan fazla üyesi bulunan güçlü geliştirici topluluğunun uzmanlığından ve desteğinden yararlanarak sizin veya bizim bulutumuzda sorunsuz bir şekilde çalışır.

    Lightning artık PyTorch Lightning, Fabric ve LitServe gibi açık kaynaklı araçlarımıza ve Lightning Studios'a entegre olan AWS Yapay Zeka Yongaları Trainium ve Inferentia için yerel olarak destek sunuyor. Bu, kullanıcılara önceden eğitme, ince ayar yapma ve geniş ölçekte dağıtma yeteneklerini sorunsuz şekilde sağlayarak maliyeti, erişilebilirliği ve performansı sıfır geçiş iş yüküyle optimize eder. Bunun yanı sıra, en yeni nesil Trainium2 yongaları dahil olmak üzere kullanıcılara AWS Yapay Zeka Yongaları'nın performans ve maliyet avantajlarını sunar.

    Luca Antiga, CTO, Lightning AI
  • Domino Data Lab

    Domino, AWS'deki altyapı, veriler ve hizmetler dâhil olmak üzere tüm veri bilimi yapıtlarını ortamlar genelinde düzenler ve Amazon SageMaker'ı kurumsal veri bilimi ekiplerini desteklemek için yönetişim ve iş birliği özellikleriyle tamamlar. Domino, AWS Marketplace üzerinden SaaS veya kendi kendine yönetilen hizmet olarak kullanılabilir.

    Önde gelen işletmeler; teknik karmaşıklığı, maliyetleri ve yönetişimi dengeleyerek rekabetçi bir avantaj elde etmek için kapsamlı yapay zeka seçeneklerine hakim olmalıdır. Domino olarak, müşterilere en son teknolojilere erişim imkânı sağlama taahhüdü veriyoruz. İşlemin bu kadar çok çığır açan yeniliğin karşısında darboğaz olduğu bir ortamda müşterilerimize daha yüksek performans, daha düşük maliyet ve daha iyi enerji verimliliği ile modelleri eğitebilmeleri ve dağıtabilmeleri için Trainium2'ye erişim sağlamaktan gurur duyuyoruz.

    Nick Elprin, CEO ve Kurucu Ortak, Domino Data Lab

Kullanmaya başlama

Trn2 bulut sunucuları için SageMaker desteği yakında geliyor. Dayanıklı bir işlem kümesi, optimize edilmiş eğitim performansı ve altta yatan işlem, ağ iletişimi ve bellek kaynaklarından verimli şekilde yararlanmayı sağlayan Amazon SageMaker HyperPod'u kullanarak Trn2 bulut sunucularında modelleri kolayca eğitebileceksiniz. Ayrıca, modelleri üretimde daha verimli şekilde yönetmek ve operasyonel yükü azaltmak için SageMaker'ı kullanarak Trn2 bulut sunucularındaki model dağıtımınızı ölçeklendirebilirsiniz.

AWS Derin Öğrenme AMI'leri (DLAMI), derin öğrenme (DL) uygulayıcı ve araştırmacılarına AWS'de derin öğrenmeyi her ölçekte hızlandırmak için kullanabilecekleri altyapı ve araçları sunar. AWS Neuron sürücüleri, derin öğrenme modellerinizi Trn2 bulut sunucularında en iyi şekilde eğitmek için DLAMI'de önceden yapılandırılmış olarak gelir.

Trn2 bulut sunucuları için Derin Öğrenme Container'ları desteği yakında geliyor. Bundan böyle bu bulut sunucularını kullanarak Trn2 bulut sunucularını bir tam olarak yönetilen Kubernetes hizmeti olan Amazon Esnek Kubernetes Hizmeti'nde (Amazon EKS) ve tam olarak yönetilen container düzenleme hizmeti olan Amazon Elastic Container Service'te (Amazon ECS) dağıtabileceksiniz. Neuron, AWS Derin Öğrenme Container'larında önceden yüklenmiş olarak da mevcuttur. Trn2 bulut sunucularında container'ları çalıştırma hakkında daha fazla bilgi edinmek için Neuron Container öğreticilerine bakın.

Ürün ayrıntıları

Bulut Sunucusu Boyutu EC2 UltraServers'ta mevcuttur Trainium2 çipleri Hızlandırıcı
belleği

vCPU'lar Bellek
(TB)
Bulut sunucusu depolama alanı (TB) Ağ bant genişliği (Tbps) EBS bant genişliği (Gbps)
trn2.48xlarge Hayır 16 1,5 TB 192 2 TB 4 x 1,92 NVMe SSD 3,2 80
trn2u.48xlarge Evet (Ön İzleme) 16 1,5 TB 192 2 TB 4 x 1,92 NVMe SSD 3,2 80