Veröffentlicht am: Mar 30, 2021
Beim Erstellen von Datensätzen in AWS Glue DataBrew aus dem Amazon S3 Data Lake können Sie jetzt dynamische Datensätze erstellen, um die Datenvorbereitung auf neu eingehende Amazon S3-Dateien zu planen oder Transformationen auf gefilterte oder bedingt ausgewählte Dateien oder Ordner in S3 anzuwenden. Sie können einen dynamischen S3-Pfad erstellen, um Dateien basierend auf einem Zeitfenster oder dem Zeitpunkt der letzten Dateiaktualisierung auszuwählen, und benutzerdefinierte Parameter definieren, um String-, Zahlen- oder datumsbasierte Werte in Ihrem S3-Dateipfad durch Filterbedingungen wie "beginnt mit", "endet mit", "enthält", "enthält nicht", "kleiner als", "größer als", "vor" und andere zu ersetzen. Benutzerdefinierte Parameternamen können als Spalten in Ihre Datasets aufgenommen werden und das überarbeitete Schema wird für Jobs verwendet, die auf dynamischen Datensätzen laufen. Mit parametrisierten S3-Pfaden und/oder -Dateien können Benutzer die Anwendung bestehender Rezepte für die Ausführung auf ausgewählten dynamischen Datensätzen planen.
DataBrew ist ein visuelles Datenvorbereitungstool, mit dem Sie Daten mithilfe von mehr als 250 vorgefertigten Transformationen für die Datenvorbereitung ganz einfach bereinigen und normalisieren können, ohne Code schreiben zu müssen.
Weitere Informationen erhalten Sie in diesem Video mit den ersten Schritten oder Sie verwenden einen Beispieldatensatz, um DataBrew kennenzulernen. Besuchen Sie zum Einstieg die AWS-Managementkonsole oder installieren Sie das DataBrew-Plugin in Ihrer Notebook-Umgebung und lesen Sie die DataBrew-Dokumentation.