Veröffentlicht am: Jul 26, 2019
Ab heute können Sie Job-Lesezeichen für Parquet- und ORC-Formate in Glue ETL-Jobs (mit Glue Version 1.0) verwalten. AWS Glue verfolgt Daten, die im Rahmen einer früheren Ausführung eines ETL-Jobs verarbeitet wurden, indem die Statusinformationen aus der Job-Ausführung gespeichert werden. Die dauerhaften Statusinformationen werden als Job-Lesezeichen bezeichnet. Mit Job-Lesezeichen kann AWS Glue Statusinformationen speichern und die Neuverarbeitung alter Daten vermeiden.
In der Vergangenheit konnten Sie nur Lesezeichen in bekannten S3-Quellformaten wie JSON, CSV, Apache Avro und XML erstellen.
Diese Funktion wird in allen Regionen angeboten, in denen AWS Glue verfügbar ist, mit Ausnahme von AWS GovCloud (USA-Ost) und AWS GovCloud (USA West).
Weitere Informationen zu dieser Funktion erhalten Sie in der Dokumentation.