Veröffentlicht am: Nov 29, 2023
Wir freuen uns, Ihnen neue Funktionen in Amazon SageMaker vorstellen zu können, mit denen Kunden die Kosten für die Modellbereitstellung im Durchschnitt um 50% und die Inferenzlatenz im Durchschnitt um 20% senken können. Kunden können mehrere Modelle auf derselben Instance bereitstellen, um die zugrunde liegenden Beschleuniger besser nutzen zu können. SageMaker überwacht aktiv Instances, die Inferenzanfragen verarbeiten, und leitet Anfragen intelligent weiter, je nachdem, welche Instanzen verfügbar sind.
Diese Features sind für die Echtzeit-Inferenz von SageMaker verfügbar, was die Bereitstellung von ML-Modellen erleichtert. Sie können jetzt eine oder mehrere InferenceComponents erstellen und sie auf einem SageMaker-Endpunkt bereitstellen. Eine Inferenzkomponente abstrahiert Ihr ML-Modell und ermöglicht es Ihnen, CPUs, GPU- oder Neuron-Beschleuniger sowie Skalierungsrichtlinien pro Modell zuzuweisen. Wir platzieren jedes Modell intelligent Instance-übergreifend hinter dem Endpunkt, um die Auslastung zu maximieren und Kosten zu sparen. Jedes Modell kann unabhängig voneinander auf Null hoch- und herunterskaliert werden. Dadurch werden Hardwareressourcen für andere Modelle frei, damit sie die Beschleuniger auf der Instance nutzen können. Jedes Modell gibt auch seine eigenen Metriken und Protokolle aus, die Ihnen helfen, Probleme zu überwachen und zu debuggen. Wir haben einen neuen Routing-Algorithmus für die wenigsten ausstehenden Anfragen hinzugefügt, der zu einer gleichmäßigeren Verteilung der Anfragen führt, was zu einer geringeren End-to-End-Latenz führt.
Diese neuen Features sind allgemein verfügbar in: Asien-Pazifik (Tokio, Seoul, Mumbai, Singapur, Sydney, Jakarta), Kanada (Zentral), Europa (Frankfurt, Stockholm, Irland, London), Naher Osten (VAE), Südamerika (Sao Paulo), USA Ost (Nord-Virginia, Ohio) und USA West (Oregon).
Erfahren Sie mehr, indem Sie unsere Dokumentationsseite und unsere Produktseite besuchen.