AWS Germany – Amazon Web Services in Deutschland

Neue Amazon DynamoDB Zero-ETL-Integration mit Amazon SageMaker Lakehouse

Von Donnie übersetzt durch Anja Shevchyk

Amazon DynamoDB, eine serverlose NoSQL-Datenbank, ist für über eine Million Kunden die bevorzugte Lösung zum Erstellen von Anwendungen mit niedriger Latenz und hoher Skalierbarkeit. Mit wachsenden Datenmengen suchen Unternehmen ständig nach Möglichkeiten, wertvolle Erkenntnisse aus operativen Daten zu gewinnen. Diese werden oft in Amazon DynamoDB gespeichert. Um diese Daten in Amazon DynamoDB optimal für Analyse- und Machine-Learning (ML)-Anwendungsfälle zu nutzen, erstellen Kunden häufig individuelle Datenpipelines – eine zeitaufwändige Infrastrukturaufgabe, die wenig Mehrwert für ihr Kerngeschäft bietet.
Ab heute können unsere Kunden mit nur wenigen Klicks die neue Amazon DynamoDB Zero-ETL-Integration mit Amazon SageMaker Lakehouse nutzen, um Analyse- und ML-Workloads auszuführen und ohne die Kapazität ihrer DynamoDB-Tabelle zu beanspruchen. Amazon SageMaker Lakehouse vereint alle Ihre Daten aus Amazon Simple Storage Service (S3) Data Lakes und Amazon Redshift Data Warehouses und hilft Ihnen, leistungsstarke Analyse- und KI/ML-Anwendungen auf einer einzigen Datenkopie zu erstellen.

Erste Schritte

Für die Implementierung müssen Sie eine Zero-ETL-Integration für Ihre Daten in Amazon DynamoDB mit einem Amazon Simple Storage Service Data Lake einrichten, der von Amazon SageMaker Lakehouse verwaltet wird. Bevor Sie die Zero-ETL-Integration einrichten, müssen einige Voraussetzungen erfüllt sein. Hier wird beschrieben wie Sie die Einrichtung von Amazon DynamoDB vornehmen können.

Nachdem alle Voraussetzungen erfüllt sind, können Sie mit dieser Integration beginnen. Gehen Sie zur AWS Glue-Konsole und wählen Sie die Zero-ETL-Integrationen (Zero-ETL integrations) unter Datenintegration und ETL (Data integration and ETL) aus in der Navigationsleiste. Dann wählen Sie Zero-ETL-Integration erstellen (Create zero-ETL integration).

Hier können Sie Ihre Datenquelle auswählen. Wählen Sie Amazon DynamoDB aus und klicken Sie auf Weiter (Next).

Als Nächstes müssen Sie die Quellen- und Zieldetails konfigurieren. Im Abschnitt Quellendetails (Source details) wählen Sie Ihre DynamoDB-Tabelle aus. Im Abschnitt Zieldetails (Target details) geben Sie den S3-Bucket an, den Sie im AWS Glue Data Catalog eingerichtet haben.

Um diese Integration einzurichten, benötigen Sie eine IAM-Rolle, die AWS Glue die erforderlichen Berechtigungen erteilt. Anleitungen zur Konfiguration von IAM-Berechtigungen finden Sie auf der Amazon DynamoDB-Dokumentationsseite. Wenn Sie noch keine Ressourcenrichtlinie für Ihren AWS Glue Data Catalog konfiguriert habe, können Sie Für mich beheben (Fix it for me) auswählen, um die erforderlichen Ressourcenrichtlinien automatisch hinzuzufügen.

Hier finden Sie Optionen zur Konfiguration der Ausgabe. Unter Datenpartitionierung (Data partitioning) können Sie entweder den DynamoDB-Tabellenschlüssel für die Partitionierung verwenden oder einen benutzerdefinierten Partitionsschlüssel angeben. Nach Abschluss der Konfiguration wählen Sie Weiter (Next).

Da Sie das Kontrollkästchen Für mich beheben (Fix it for me) ausgewählt haben, müssen Sie die erforderlichen Änderungen überprüfen und Fortfahren (Continue) wählen, bevor Sie zum nächsten Schritt übergehen können.

Auf der nächsten Seite haben Sie die Möglichkeit, die Datenverschlüsselung zu konfigurieren. Sie können den AWS Key Management Service (AWS KMS) oder einen benutzerdefinierten Verschlüsselungsschlüssel verwenden. Dann weisen Sie der Integration einen Namen zu und wählen Weiter (Next).

Im letzten Schritt müssen Sie die Konfigurationen überprüfen. Wenn Sie zufrieden sind, wählen Sie Erstellen der Integration (Create and launch integration), um die Zero-ETL-Integration zu erstellen.

Nach Abschluss der ersten Datenerfassung ist Ihre Zero-ETL-Integration einsatzbereit. Die Fertigstellungszeit variiert je nach Größe Ihrer Quell-DynamoDB-Tabelle.

Wenn Sie zu Tabellen (Tables) unter Datenkatalog (Data Catalog) im linken Navigationsbereich navigieren, können Sie weitere Details des Schemas beobachten. Im Hintergrund verwendet diese Zero-ETL-Integration Apache Iceberg, um Transformationen im Zusammenhang mit Datenformat und -struktur in meinen DynamoDB-Daten in Amazon S3 durchzuführen.

Schließlich werden Sie feststellen, dass alle Ihre Daten in Ihrem S3-Bucket verfügbar sind.

Diese Zero-ETL-Integration reduziert die Komplexität und den operativen Aufwand der Datenbewegung erheblich, und können Sie sich daher auf die Gewinnung von Erkenntnissen konzentrieren, anstatt Ihre Pipelines zu verwalten.

Jetzt verfügbar

Die neue Zero-ETL-Funktion ist in den folgenden AWS-Regionen verfügbar: US-Ost (Nord-Virginia, Ohio), US-West (Oregon), Asien-Pazifik (Hongkong, Singapur, Sydney, Tokio), Europa (Frankfurt, Irland, Stockholm).

Testen Sie, ob Sie Ihre Datenanalyse-Workflows mit der Amazon DynamoDB Zero-ETL-Integration mit Amazon SageMaker Lakehouse optimieren können. Weitere Informationen finden Sie unter der Amazon DynamoDB-Dokumentationsseite.

Viel Spaß beim Entwickeln!
Donnie

 

Über die Autoren

                      

Donnie Prakoso ist Softwareingenieur, selbsternannter Barista und Principal Developer Advocate bei AWS. Mit mehr als 17 Jahren Erfahrung in der Technologiebranche, von Telekommunikation über Banken bis hin zu Startups. Er konzentriert sich jetzt darauf, Entwicklern zu helfen, verschiedene Technologien zu verstehen, um ihre Ideen in die Tat umzusetzen. Er liebt Kaffee und jede Diskussion zu allen Themen von Microservices bis hin zu KI / ML.