AWS Germany – Amazon Web Services in Deutschland

Vereinfachen Sie Analytik und KI/ML mit dem neuen Amazon SageMaker Lakehouse

Von Esra Kayabali übersetzt durch Pawel Warmuth

Heute freue ich mich, die allgemeine Verfügbarkeit von Amazon SageMaker Lakehouse ankündigen zu können. Eine Funktion, die Daten über Amazon Simple Storage Service (Amazon S3) Data Lakes und Amazon Redshift Data Warehouses hinweg vereinheitlicht und Ihnen hilft, leistungsstarke Analyse- und Künstliche Intelligenz- und Machine-Learning-Anwendungen (KI/ML) auf einer einzigen Datenkopie zu erstellen. SageMaker Lakehouse ist Teil der nächsten Generation von Amazon SageMaker, einer einheitlichen Plattform für Daten, Analysen und KI, die weit verbreitete AWS-Funktionen für maschinelles Lernen und Analysen zusammenführt und eine integrierte Erfahrung für Analysen und KI bietet.

Kunden möchten mehr aus Ihren Daten machen und wählen hierfür die richtige Speicher- und Datenbanklösung. Die Daten sind über Data Lakes, Data Warehouses und verschiedene Anwendungen verteilt, was zu Datensilos führt die den Zugriff und die Nutzung erschweren. Diese Fragmentierung führt zu Doppelungen der Daten und komplexen Datenpipelines, was wiederum die Kosten für die Organisation erhöht. Darüber hinaus sind Kunden auf bestimmte Abfrage-Engines und Tools beschränkt, da die Art und der Ort der Datenspeicherung ihre Optionen einschränken. Diese Einschränkungen und der inkonsistente Datenzugriff behindern ihre Fähigkeit, mit den Daten effektiv zu arbeiten und fundierte Geschäftsentscheidungen zu treffen.

Amazon SageMaker Lakehouse adressiert diese Herausforderungen indem es Daten über Amazon Simple Storage Service (Amazon S3) und Amazon Redshift Data Warehouses hinweg vereinheitlicht. Es bietet Ihnen die Flexibilität mit allen Engines und Tools, die mit Apache Iceberg kompatibel sind, zuzugreifen und abzufragen. Mit Amazon SageMaker Lakehouse können Sie fein granulare Berechtigungen zentral definieren und über mehrere AWS-Services hinweg definieren, was die gemeinsame Nutzung und Zusammenarbeit bei Daten vereinfacht. Sie können zusätzlich zum Zugriff auf Ihre Daten aus den bestehenden Data Lakes und Data Warehouses, Zero-ETL Prozesse aus Datenbanken wie Amazon Aurora, Amazon RDS for MySQL, Amazon DynamoDB sowie Anwendungen wie Salesforce und SAP nutzen. Amazon SageMaker Lakehouse fügt sich in Ihre bestehenden Umgebungen ein.

Erste Schritte mit SageMaker Lakehouse
Für diese Demo verwende ich eine vorkonfigurierte Umgebung mit mehreren AWS-Datenquellen. Ich nutze in der Demo die Amazon SageMaker Unified Studio (Vorschau) [EN] Konsole, die eine integrierte Entwicklungsumgebung für all Ihre Daten und KI bietet. Mit Unified Studio können Sie nahtlos auf Daten aus verschiedenen Quellen über Amazon SageMaker Lakehouse zugreifen und diese abfragen und AWS-Tools für Analysen und KI/ML verwenden. Hier können Sie Projekte erstellen und verwalten, die als gemeinsame Arbeitsbereiche dienen. Diese Projekte ermöglichen es Teammitgliedern, zusammenzuarbeiten, mit Daten zu arbeiten und KI-Modelle gemeinsam zu entwickeln. Die Erstellung eines Projekts richtet automatisch AWS Glue Data Catalog-Datenbanken ein, erstellt einen Katalog für Redshift Managed Storage (RMS)-Daten und erstellt die erforderlichen Berechtigungen.

Um ein neues Projekt zu erstellen, wähle ich Create project.

Wir haben zwei Projektprofil Optionen um einen Lakehouse zu erstellen. Die erste ist Data analytics and AI-ML model development, bei der Sie Daten analysieren und ML- und generative KI-Modelle erstellen können, die von Amazon EMR, AWS Glue, Amazon Athena, Amazon SageMaker AI und Amazon SageMaker Lakehouse unterstützt werden. Die zweite ist SQL analytics, bei der Sie Ihre Daten in SageMaker Lakehouse mit SQL analysieren können. Für diese Demo nutze ich mit SQL analytics.

Ich gebe einen Projektnamen in das Feld Project name ein und wähle SQL analytics unter Project profile. Ich drücke nun auf Continue.

Nun fahre ich mit den Parameter unter Tooling fort und benenne die Lakehouse-Datenbanken und meinen Redshift Serverless-Ressourcen. Schließlich vergebe ich einen Namen für meinen Katalog unter dem Punkt Lakehouse Catalog.

Im nächsten Schritt überprüfe ich die Ressourcen und wähle Create project.

Nachdem das Projekt erstellt wurde sehen wir die Projektdetails.

Ich gehe zu Daten im Navigationsbereich und wähle das + (Plus)-Zeichen, um Daten hinzuzufügen. Ich wähle Katalog erstellen um einen neuen Katalog zu erstellen und wähle dann Daten hinzufügen.

Nachdem der RMS-Katalog erstellt wurde, wähle ich Build aus dem Navigationsbereich und dann Query-Editor unter Analysis & Integration, um ein Schema unter dem RMS-Katalog und eine Tabelle zu erstellen um diese dann mit Beispieldaten zu füllen.

Nachdem ich die SQL-Abfragen in die dafür vorgesehenen Zellen eingegeben habe, wähle ich Select data source aus dem Dropdown-Menü rechts, um eine Datenbankverbindung zum Amazon Redshift Data Warehouse herzustellen. Diese Verbindung ermöglicht es mir, die Abfragen auszuführen und die gewünschten Daten aus der Datenbank abzurufen.

Sobald die Datenbankverbindung erfolgreich hergestellt ist, wähle ich Run all, um alle Abfragen auszuführen und überwache den Ausführungsfortschritt bis alle Ergebnisse angezeigt werden.

Für diese Demo verwende ich zwei zusätzliche vorkonfigurierte Kataloge. Ein Katalog ist ein Container, der Ihre Lakehouse-Objektdefinitionen wie Schema und Tabellen organisiert. Der erste ist ein Amazon S3 Data Lake Katalog (test-s3-catalog), der Kundendatensätze mit detaillierten Transaktions- und demografischen Informationen speichert. Der Zweite ist ein Lakehouse-Katalog (churn_lakehouse), der für die Speicherung und Verwaltung von Kundenabwanderungsdaten vorgesehen ist. Diese Integration schafft eine einheitliche Umgebung, in der ich Kundenverhalten zusammen mit Abwanderungsprognosen analysieren kann.

Aus dem Navigationsbereich wähle ich Data und finde meine Kataloge unter dem Abschnitt Lakehouse. Amazon SageMaker Lakehouse bietet mehrere Analysemöglichkeiten, einschließlich Query with Athena, Query with Redshift und In Jupyter Lab Notebook öffnen.

Wenn Sie die Option Open in Jupyter Lab notebook nutzen möchten, müssen Sie bei der Erstellung eines Projekts das Profil Data analytics and AI-ML model development wählen. Durch die Wahl von In Jupyter Lab Notebook öffnen und die Konfiguration des Iceberg REST-Katalogs können Sie mit Amazon SageMaker Lakehouse interagieren. Dies ermöglicht Ihnen entweder die Nutzung von Apache Spark via EMR 7.5.0 oder AWS Glue 5.0 oder ine einheitliche Verarbeitung von Daten über Ihre Data Lakes und Data Warehouses hinweg.

So sieht die Abfrage mit dem Jupyter Lab Notebook aus:

Ich fahre fort, indem ich Abfrage mit Athena wähle. Mit dieser Option kann ich die serverlose Abfragefunktion von Amazon Athena nutzen, um die Verkaufsdaten direkt innerhalb von SageMaker Lakehouse zu analysieren. Nach der Auswahl von Query with Athena startet der Query-Editor automatisch und bietet einen Arbeitsbereich, in dem ich SQL-Abfragen gegen das Lakehouse erstellen und ausführen kann. Diese integrierte Abfrageumgebung bietet eine nahtlose Erfahrung für Datenexploration und -analyse, komplett mit Syntaxhervorhebung und Autovervollständigungsfunktionen zur Steigerung der Produktivität.

Ich kann auch die Option Query with Redshift verwenden, um SQL-Abfragen gegen das Lakehouse auszuführen.

Amazon SageMaker Lakehouse bietet eine umfassende Lösung für modernes Datenmanagement und -analyse. Durch die Vereinheitlichung des Zugriffs auf Daten aus verschiedenen Quellen, die Unterstützung einer breiten Palette von Analyse- und ML-Engines und die Bereitstellung fein granularer Zugriffskontrollen hilft Amazon SageMaker Lakehouse Ihnen, das Beste aus Ihren Datenbeständen herauszuholen. Ob Sie mit Data Lakes in Amazon S3, Data Warehouses in Amazon Redshift oder operativen Datenbanken und Anwendungen arbeiten, Amazon SageMaker Lakehouse bietet die Flexibilität und Sicherheit, die Sie benötigen, um Innovationen voranzutreiben und datengesteuerte Entscheidungen zu treffen. Sie können Hunderte von Konnektoren verwenden, um Daten aus verschiedenen Quellen zu integrieren und durch föderierten Abfragen auf Daten in Drittanbieter-Datenquellen

Jetzt verfügbar
Sie können auf Amazon SageMaker Lakehouse über die AWS Management Console, APIs, AWS Command Line Interface (AWS CLI) oder AWS SDKs sowie über den AWS Glue Data Catalog und AWS Lake Formation zugreifen. SageMaker Lakehouse ist in den AWS-Regionen US East (N. Virginia), US West (Oregon), US East (Ohio), Europa (Irland), Europa (Frankfurt), Europa (Stockholm), Asien-Pazifik (Sydney), Asien-Pazifik (Hongkong), Asien-Pazifik (Tokio) und Asien-Pazifik (Singapur) verfügbar.

Preisinformationen finden Sie auf der Seite Amazon SageMaker Lakehouse Preisgestaltung.

Weitere Informationen zu Amazon SageMaker Lakehouse und wie es Ihre Datenanalyse- und KI/ML-Workflows vereinfachen kann, finden Sie in der Amazon SageMaker Lakehouse Dokumentation.

— Esra [EN,EXTERN]

Über den Autor

Esra Kayabali ist Senior Solutions Architect bei AWS und spezialisiert auf Analytik, einschließlich Data Warehousing, Data Lakes, Big Data Analytics, Batch- und Echtzeit-Datenstreaming sowie Datenintegration. Sie verfügt über mehr als zehn Jahre Erfahrung in der Softwareentwicklung und Lösungsarchitektur. Sie ist engagiert sich Leidenschaftlich für kollaboratives Lernen, Wissensaustausch und hilft der Community auf ihrem Weg in die Cloud-Technologien.