Veröffentlicht am: Jan 24, 2019
Amazon SageMaker Batch Transform unterstützt jetzt das TFRecord-Format als unterstützten SplitType und ermöglicht das Aufteilen von Datensätzen mit TFRecord-Begrenzungen. Das ergänzt die Liste der unterstützten Formate, darunter RecordIO, CSV und Text.
Amazon SageMaker ist ein vollständig verwalteter Service, der es jedem Entwickler und Datenwissenschaftler ermöglicht, schnell und einfach Machine Learning-Modelle zu erstellen, zu trainieren und zu implementieren. Eine wichtige Funktion von SageMaker ist Batch Transform. Mit dieser Funktion können Sie Prognosen für Batch-Daten ausführen.
TFRecord ist ein Standard-TensorFlow-Datenformat. Es handelt sich dabei um ein aufzeichnungsorientiertes, binäres Dateiformat, das eine effiziente Speicherung und Verarbeitung großer Datensätze ermöglicht. Mit dieser Erweiterung ist es jetzt einfach, eine Sequenz mit binären Datensätzen zu speichern und für die Arbeit mit großen Datensätzen ist die Verwendung von SageMaker Batch Transform ideal. Für die Verwendung von TFRecord bei der Ausführung von Batch-Transformationsaufgaben können Sie ganz einfach TFRecord als SplitType auswählen und Ihr Datensatz wird mit TFRecord-Begrenzungen aufgeteilt. Außerdem können Sie eine MultiRecord-BatchStrategy für die Batch-Verarbeitung mehrerer Datensätze über eine einzelne Anfrage festlegen.
Die TFRecord-Unterstützung steht jetzt in allen AWS-Regionen zur Verfügung, in denen Amazon SageMaker bereits heute verfügbar ist. Mehr erfahren Sie in der Dokumentation und auf der Beispielseite.