Veröffentlicht am: May 10, 2021
Amazon SageMaker unterstützt jetzt Elastic Fabric Adapter (EFA) für Machine Learning. EFA ist eine Netzwerkschnittstelle für Amazon EC2-Instances, die es Kunden ermöglicht, Anwendungen mit hohen Anforderungen an die Inter-Node-Kommunikation skaliert auf AWS auszuführen. EFA kann das verteilte Training auf SageMaker ohne zusätzliche Kosten erheblich beschleunigen. Beispielsweise haben wir das BERT-Modell zur Verarbeitung natürlicher Sprache mit der verteilten parallelen Datenbibliothek von SageMaker auf 32 ml.p4d.24xlarge-Instanzen trainiert. Das Training war mit EFA im Vergleich zu Elastic Network Adapter (ENA) bis zu 130 % schneller.
Durch verteiltes Training können Entwickler und Datenwissenschaftler Modelle schneller trainieren und die Modellqualität verbessern. Kunden nutzen die verteilten Trainingsbibliotheken von SageMaker, weil sie schnelle und einfache Methoden für das Training großer Deep-Learning-Modelle und -Datensätze bieten. EFAs einzigartiger Betriebssystem-Bypass-Netzwerkmechanismus verbessert die Leistung der Kommunikation zwischen den Instances, was zu einem noch schnelleren verteilten Training auf SageMaker führt.
Für die Verwendung von EFA auf SageMaker fallen keine zusätzlichen Kosten an. EFA in SageMaker wird derzeit auf den Instances ml.p3dn.24xlarge, ml.p4d.24xlarge und ml.c5n.18xlarge unterstützt. Verteilte Trainingsaufträge von SageMaker, welche die TensorFlow- und PyTorch-Deep-Learning-Container verwenden, nutzen die Vorteile der EFA automatisch und ohne jegliches Handeln des Kunden. EFA kann für Schulungsaufträge, die VPC oder ein benutzerdefiniertes Docker-Image verwenden, mit minimalen Konfigurationsänderungen aktiviert werden.
Weitere Informationen zum EFA-Support in Amazon SageMaker finden Sie in der Dokumentation für die verteilte SageMaker-Schulungsbibliothek oder in der Anleitung zur Durchführung von Schulungen mit EFA in Ihrem Container. Melden Sie sich zum Einstieg bei der Amazon SageMaker-Konsole an.