Veröffentlicht am: Mar 18, 2024
Sie können jetzt ein noch besseres Preis-Leistungs-Verhältnis für große Sprachmodelle (LLMs) erzielen, die auf einer beschleunigten NVIDIA-Recheninfrastruktur ausgeführt werden, wenn Sie Amazon SageMaker mit den neu integrierten NVIDIA-NIM-Inferenz-Microservices verwenden. SageMaker ist ein vollständig verwalteter Service, der das Erstellen, Trainieren und Bereitstellen von Machine Learning und LLMs einfach macht. NIM, Teil der Softwareplattform NVIDIA AI Enterprise, bietet leistungsstarke KI-Container für die Inferenz mit LLMs.
Bei der Bereitstellung von LLMs für generative KI-Anwendungsfälle in großem Umfang verwenden Kunden häufig NVIDIA-GPU-beschleunigte Instances und fortschrittliche Frameworks wie NVIDIA Triton Inference Server und NVIDIA TensorRT-LLM, um die Leistung der LLMs zu beschleunigen und zu optimieren. Jetzt können Kunden, die Amazon SageMaker mit NVIDIA NIM verwenden, optimierte LLMs schnell auf SageMaker bereitstellen und die Bereitstellungszeit von Tagen auf Minuten reduzieren.
NIM bietet Container für eine Vielzahl gängiger LLMs, die für Inferenz optimiert sind. Zu den standardmäßig unterstützten LLMs gehören Llama 2 (7B, 13B und 70B), Mistral-7b-Instruct, Mixtral-8x7b, NVIDIA Nemotron-3 8B und 43B, StarCoder und StarCoderPlus, die vorgefertigte NVIDIA-TensorRT™-Engines verwenden. Diese Modelle wurden mit den geeignetsten Hyperparametern kuratiert, um eine leistungsstarke Bereitstellung auf NVIDIA-GPUs sicherzustellen. Für andere Modelle bietet NIM auch Tools zum Erstellen von GPU-optimierten Versionen. Nutzen Sie zunächst den NIM-Container, der über den NVIDIA-API-Katalog verfügbar ist, und stellen Sie ihn auf Amazon SageMaker bereit, indem Sie einen Inferenzendpunkt erstellen.
Auf NIM-Container kann in allen AWS-Regionen zugegriffen werden, in denen Amazon SageMaker verfügbar ist. Weitere Informationen finden Sie in unserem Blog zum Start.