Veröffentlicht am: Aug 24, 2023
Wir freuen uns, die Vorversion von Amazon SageMaker Profiler ankündigen zu können, einem fortschrittlichen Observability-Tool für große Deep-Learning-Workloads. Mit dieser neuen Funktion können Sie auf detaillierte Informationen zur Profilerstellung im Zusammenhang mit Computerhardware zugreifen, um die Trainingsleistung von Modellen zu optimieren.
Für Kunden, die umfangreiche Deep-Learning-Modelle für Computer-Vision-, NLP- oder Basismodell-Anwendungsfälle entwickeln, sind die Anzahl der benötigten Rechen-Instances und die damit verbundenen Kosten erheblich. Sie benötigen Einblick in die aktiven Kernelzeiten, die Startlatenz oder andere mit GPU/CPU-Prozessen zusammenhängenden Zeitplänen. SageMaker Profiler ermöglicht die Identifizierung von Optimierungsmöglichkeiten anhand von GPU- und CPU-Nutzungsmetriken, hochauflösenden GPU/CPU-Trace-Diagrammen, benutzerdefinierten Anmerkungen und Einblick in die Auslastung mit Mischpräzision. Es ermöglicht Benutzern, aufgrund einer ungleichmäßigen Ressourcennutzung entstandene Engpässe zu identifizieren. Es ist auch effizienter bei der Reduzierung des Betriebsaufwands während des Trainings und skalierbar, da es eine längere Profilerstellungsdauer und eine größere Anzahl von pro Workload profilierten Trainings-Instances unterstützt. Dadurch erhalten Datenwissenschaftler zuverlässigere Einblicke, während sie gleichzeitig versuchen, die Hardwareleistung für große verteilte Trainingsworkloads zu optimieren.
Amazon SageMaker Profiler ist in den folgenden Regionen verfügbar: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Europa (Frankfurt) und Europa (Irland), unter Verwendung des Standard-Supports für Rechen-Instances.. Während dieser Vorversion wird SageMaker Profiler für Kunden in unterstützten Regionen kostenlos verfügbar sein.
Weitere Informationen finden Sie im ML-Blog und auf der Dokumentationsseite.