SageMaker Model Eğitimi nedir?
Amazon SageMaker Model Eğitimi, makine öğrenimi (ML) modellerini altyapıyı yönetmeye gerek kalmadan geniş ölçekte eğitip ayarlama süresini ve maliyetini azaltır. Hem şu anda mevcut olan en yüksek performanslı ML işlem altyapısından yararlanırsınız hem de Amazon SageMaker AI, altyapı ölçeğini bir ila binlerce GPU arasında otomatik olarak artırıp azaltabilir. SageMaker AI, derin öğrenme modellerini daha hızlı eğitmek için veri kümelerini gerçek zamanlı olarak seçmenize ve iyileştirmenize yardımcı olur. SageMaker'la dağıtılmış eğitim kitaplıkları, büyük modelleri ve eğitim veri kümelerini AWS GPU bulut sunucuları arasında otomatik olarak bölebilir. Dilerseniz DeepSpeed, Horovod ya da Megatron gibi üçüncü taraf kitaplıklarını da kullanabilirsiniz. Eğitim kümelerini otomatik olarak izleyerek ve onararak altyapı modellerini (FM) haftalar ve aylarca kesintisiz olarak eğitin.
Uygun maliyetli eğitimin faydaları
Modelleri geniş ölçekte eğitin
Tam olarak yönetilen eğitim işleri
SageMaker eğitim işleri; büyük ölçekli, dağıtılmış FM eğitimi için tam olarak yönetilen bir kullanıcı deneyimi sunarak altyapı yönetiminin tekdüze ağır işlerini ortadan kaldırır. SageMaker eğitim işleri, esnek bir dağıtılmış eğitim kümesini otomatik olarak çalıştırır, altyapıyı izler ve sorunsuz bir eğitim deneyimi sağlamak için hatalardan otomatik olarak kurtarır. Eğitim tamamlandığında, SageMaker kümeyi döndürür ve net eğitim süresi için faturalandırılırsınız. Ayrıca SageMaker eğitim işlerinde, eğitim bütçenizi daha da optimize etmek için tek bir iş yüküne en uygun bulut sunucusu türünü seçme (örneğin, bir büyük dil modelini (LLM) önceden eğitmek için bir P5 kümesi veya açık kaynak bir LLM üzerinde ince ayar yapmak için p4d bulut sunucuları) esnekliğine sahip olursunuz. Buna ek olarak SagerMaker eğitim işleri, çeşitli teknik uzmanlık seviyelerine ve farklı iş yükü türlerine sahip ML ekipleri arasında tutarlı bir kullanıcı deneyimi sunar.
SageMaker HyperPod
Amazon SageMaker HyperPod, altyapı modeli (FM) geliştirmeyi ölçeklendirmek üzere bilgi işlem kümelerini verimli bir şekilde yönetmek için amaca yönelik oluşturulmuş bir altyapıdır. Gelişmiş model eğitimi teknikleri, altyapı kontrolü, performans optimizasyonu ve gelişmiş model gözlemlenebilirliği sağlar. SageMaker HyperPod, SageMaker'ın dağıtılmış eğitim kitaplıklarıyla önceden yapılandırıldığından, kümenin hem işlem hem de ağ altyapısını verimli kullanmak için modelleri ve eğitim veri kümelerini AWS küme bulut sunucuları arasında otomatik olarak bölmenize olanak tanır. Donanım hatalarını otomatik olarak algılayarak, teşhis ederek ve kurtararak daha dayanıklı bir eğitim ortamı sağlar ve FM'leri aylar boyunca kesintisiz olarak eğitmenizi sağlayarak eğitim süresini %40'a kadar azaltır.
Yüksek performanslı dağıtılmış eğitim
SageMaker AI, modellerinizi ve eğitim veri kümelerinizi AWS GPU bulut sunucuları arasında otomatik olarak bölerek dağıtılmış eğitim gerçekleştirmeyi daha hızlı hale getirir. Eğitim işinizi AWS ağ altyapısı ve küme topolojisi için optimize etmenize yardımcı olur. Ayrıca denetim noktalarını kaydetme sıklığını optimize ederek tarifler aracılığıyla model denetim noktası işaretlemeyi kolaylaştırır ve eğitim sırasında minimum ek yük sağlar. Tariflerle, veri bilimcileri ve tüm beceri setlerinin geliştiricileri, Llama 3.1 405B, Mixtral 8x22B ve Mistral 7B dahil olmak üzere halka açık üretken yapay zeka modellerini hızla eğitmeye ve ince ayarlara başlarken son teknoloji performanstan yararlanır. Tarifler, AWS tarafından test edilmiş ve farklı model yapılandırmalarını test eden haftalarca süren sıkıcı çalışmaları ortadan kaldıran bir eğitim yığını içerir. Tek satırlık bir tarif değişikliğiyle GPU tabanlı ve AWS Trainium tabanlı bulut sunucuları arasında geçiş yapabilir ve eğitim dayanıklılığını artırmak için otomatik model denetim noktası işaretlemeyi etkinleştirebilirsiniz. Ayrıca, seçtiğiniz SageMaker eğitim özelliğiyle üretimdeki iş yüklerini çalıştırın.
Etkileşim ve izleme için yerleşik araçlar
MLflow ile Amazon SageMaker
Giriş parametrelerini, yapılandırmaları ve sonuçları yakalamak üzere MLflow ve SageMaker eğitiminden yararlanarak kullanım durumunuz için en iyi performans gösteren modelleri hızlı bir şekilde belirleyin. MLflow kullanıcı arabirimi, model eğitim girişimlerini analiz etmenize ve tek bir adımda üretime aday modelleri zahmetsizce kaydetmenize olanak sağlar.

TensorBoard ile Amazon SageMaker
TensorBoard özellikli Amazon SageMaker, doğrulama kaybının yakınsamaması veya kaybolan gradyanlar gibi yakınsama sorunlarını belirleyip gidermek için model mimarisini görselleştirerek geliştirme süresinden tasarruf etmenize yardımcı olur.
