Veröffentlicht am: Nov 15, 2019
Version 5.28.0 von Amazon EMR unterstützt jetzt Apache Hudi (Incubating). Für Data Engineers, die Amazon EMR zur Datenpipelineentwicklung und Datenverarbeitung nutzen, vereinfacht Apache Hudi ab sofort das inkrementelle Datenmanagement und den Datenschutz in Fällen, bei denen Daten auf Datensatzebene eingefügt, aktualisiert und gelöscht werden müssen. Apache Hudi ermöglicht die Datenschutz-Compliance von auf Amazon S3 basierten Data Lakes, die Erfassung von Echtzeit-Streams und Change Data Capture-Protokollen, das Einordnen von spät eingehenden Daten sowie die Nachverfolgung von Änderungen und Rollbacks. Apache Hudi ist Open-Source-basiert und unterstützt die Datenspeicherung auf Amazon S3 in anbieterunabhängigen Open-Source-Formaten wie Apache Parquet und Apache Avro.
Apache Hudi ist ein Open-Source-basiertes Datenmanagement-Framework zur Vereinfachung der inkrementellen Datenverarbeitung und der Entwicklung von Datenpipelines. Apache Hudi ermöglicht das Verwalten von Daten auf Datensatzebene in Amazon S3 zur Vereinfachung von Change Data Capture (CDC) und der Eingabe von Streaming-Daten und bietet ein Framework zur Verarbeitung sensibler Daten, bei der Aktualisierungen und Löschungen auf Datensatzebene erforderlich sind. Von Apache Hudi verwaltete Datensätze werden in offenen Speicherformaten in S3 gespeichert und die Integration in Presto, Apache Hive, Apache Spark und AWS Glue Data Catalog gewährt mittels vertrauter Tools in nahezu Echtzeit Zugriff auf aktualisierte Daten.
Apache Hudi wird von Amazon EMR nativ unterstützt und wird automatisch installiert, wenn Sie sich bei der Bereitstellung Ihres EMR-Clusters für Apache Spark, Hive oder Presto entscheiden. Mit Apache Hudi können Sie Datensätze erstellen, die entweder für lese- oder schreibintensive Anwendungsfälle optimiert sind. Zudem verwaltet Apache Hudi die zugrunde liegenden, in S3 gespeicherten Daten mit Apache Parquet und Apache Avro zur Datenspeicherung.
Version 5.28.0 von Amazon EMR mit Apache Hudi ist ab sofort in den Regionen USA Ost (Nord-Virginia und Ohio), USA West (Oregon), Südamerika (São Paulo), Europa (Irland und Stockholm), AWS GovCloud (USA Ost und USA West) sowie China (Peking, betrieben von Sinnet) verfügbar. Weitere Regionen kommen in den kommenden Wochen hinzu.
Bleiben Sie bezüglich der neuesten Versionen von Amazon EMR auf dem Laufenden, indem Sie den Feed für EMR-Versionshinweise abonnieren. Verknüpfen Sie die Feed-URL über das Symbol oben in den EMR-Versionshinweisen direkt mit Ihrem bevorzugten Feed-Reader.
Näheres zur Verwendung von Apache Hudi mit EMR erfahren Sie in unserer re:Invent-Session und dem Workshop.
Weitere Links:
AWS News Blog: Neu – Daten in S3 mit Amazon EMR und Apache Hudi einfügen, aktualisieren und löschen