Überspringen zum Hauptinhalt

Häufig gestellte Fragen zu Lakehouse-Architektur

Allgemeines

Alles öffnen

Die nächste Generation von Amazon SageMaker basiert auf einer offenen Lakehouse-Architektur, die vollständig mit Apache Iceberg kompatibel ist. Es vereint alle Daten aus Amazon S3 Data Lakes, einschließlich S3 Tables, und Amazon Redshift Data Warehouses und hilft so beim Aufbau leistungsstarker Analytik- und KI/ML-Anwendungen auf Basis einer einzigen Datenkopie. Verbinden Sie Daten aus zusätzlichen Quellen durch Zero-ETL-Integrationen mit operativen Datenbanken und Anwendungen, Abfrageverbund mit Datenquellen und Katalogverbund von dezentralen Apache-Iceberg-Tabellen. Übertragen Sie Daten aus operativen Datenbanken wie Amazon DynamoDB, Amazon Aurora MySQL und Anwendungen wie SAP und Salesforce nahezu in Echtzeit in Ihr Datenmanagementsystem durch Zero-ETL-Integrationen. Greifen Sie mit Funktionen für Verbundabfragen über verschiedene Datenquellen wie Google BigQuery, Snowflake und andere hinweg direkt auf Daten zu und führen Sie Abfragen durch. Mit Katalogverbund für dezentrale Iceberg-Kataloge können Sie direkt über AWS-Analytik-Engines auf Iceberg-Tabellen zugreifen, die in S3 gespeichert und in Databricks Unity Catalog, Snowflake Polaris Catalog und beliebigen benutzerdefinierten Iceberg-REST-Katalogen katalogisiert sind. Mit allen Iceberg-kompatiblen Tools und Engines erhalten Sie die Flexibilität, direkt auf Ihre Daten zuzugreifen und diese abzufragen. Sichern Sie Ihre Daten, indem Sie integrierte Zugriffskontrollen definieren, die für alle Analytik- und Machine-Learning-Tools und -Engines (ML) gelten.

Die Lakehouse-Architektur bietet in erster Linie drei Vorteile:

  • Einheitlicher Datenzugriff: Das Lakehouse vereinheitlicht Daten aus Amazon S3 Data Lakes, einschließlich S3-Tabellen, und Amazon Redshift Data Warehouses. Verbinden Sie Daten aus zusätzlichen Quellen durch Zero-ETL-Integrationen mit operativen Datenbanken und Anwendungen, Abfrageverbund mit Datenquellen und Katalogverbund von dezentralen Apache-Iceberg-Tabellen. Übertragen Sie Daten aus operativen Datenbanken wie Amazon DynamoDB, Amazon Aurora MySQL und Anwendungen wie SAP und Salesforce nahezu in Echtzeit in Ihr Datenmanagementsystem durch Zero-ETL-Integrationen. Greifen Sie mit Funktionen für Verbundabfragen über verschiedene Datenquellen wie Google BigQuery, Snowflake und andere hinweg direkt auf Daten zu und führen Sie Abfragen durch. Nutzen Sie den Katalogverbund, um direkt auf Iceberg-Tabellen zuzugreifen, die in S3 gespeichert und in Databricks Unity Catalog, Snowflake Polaris Catalog und jedem benutzerdefinierten Iceberg-REST-Katalog von AWS-Analytik-Engines katalogisiert sind.
  • Kompatibilität mit Apache Iceberg: Das Lakehouse bietet Ihnen die Flexibilität, auf alle Ihre Daten vor Ort zuzugreifen und sie abzufragen, und zwar aus einer Vielzahl von AWS-Services sowie Open-Source- und Drittanbieter-Tools und -Engines, die mit Apache Iceberg kompatibel sind. Sie können Analytik-Tools und Engines Ihrer Wahl wie SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools verwenden und mit einer einzigen Kopie der in Amazon S3 oder Amazon Redshift gespeicherten Daten zusammenarbeiten.
  • Sicherer Datenzugriff: Sichern Sie Ihre Daten mit integrierten, differenzierten Zugriffskontrollen auf Tabellen-, Spalten- oder Zellenebene und setzen Sie diese Berechtigungen in allen Ihren Analytik-Tools und -Engines durch. Verwenden Sie Tag-basierte, attributbasierte oder rollenbasierte Zugriffsrichtlinien, um Ihren Sicherheitsanforderungen gerecht zu werden. Geben Sie Daten innerhalb Ihres Unternehmens frei, ohne Kopien zu erstellen.

Amazon SageMaker basiert auf einer offenen Lakehouse-Architektur, die Daten aus Ihrem gesamten Datenbestand vereinheitlicht. Daten aus verschiedenen Quellen werden in logischen Containern, sogenannten Katalogen, organisiert. Jeder Katalog repräsentiert Quellen wie Amazon Redshift Data Warehouses, S3 Data Lakes oder Datenbanken. Sie können auch neue Kataloge erstellen, um Daten in Amazon S3 oder Redshift Managed Storage (RMS) zu speichern. Das Lakehouse ist direkt über SageMaker Unified Studio zugänglich, und auf die Daten im Lakehouse kann über Apache-Iceberg-kompatible Engines wie Apache Spark, Athena oder Amazon EMR zugegriffen werden. Darüber hinaus können Sie mithilfe von SQL-Tools auch Daten in Ihrem Lakehouse abrufen und analysieren. Die Datensicherung erfolgt durch die Definition differenzierter Zugriffskontrollen, die für alle Tools und Engines, die auf die Daten zugreifen, durchgesetzt werden.

Funktionen

Alles öffnen

Amazon SageMaker vereint die Zugriffskontrolle auf Ihre Daten mit zwei Funktionen: 1) Mit Lakehouse können Sie differenzierte Berechtigungen festlegen. Diese Berechtigungen werden von Abfrage-Engines wie Amazon EMR, Athena und Amazon Redshift durchgesetzt. 2) Das Lakehouse ermöglicht Ihnen den Zugriff auf Ihre Daten vor Ort, sodass keine Datenkopien mehr erstellt werden müssen. Sie können eine einzige Datenkopie und einen einzigen Satz von Zugriffskontrollrichtlinien verwalten, um von einer einheitlichen, differenzierten Zugriffskontrolle im Lakehouse zu profitieren.

Die Lakehouse-Architektur von SageMaker nutzt mehrere technische Kataloge in AWS-Glue-Datenkatalog, Lake Formation und Amazon Redshift, um einen einheitlichen Datenzugriff über Data Lakes und Data Warehouses hinweg zu ermöglichen. Es verwendet AWS-Glue-Datenkatalog und Lake Formation, um Tabellendefinitionen und Berechtigungen zu speichern. Differenzierte Berechtigungen für Lake Formation sind für Tabellen verfügbar, die im Lakehouse definiert sind. Sie können Ihre Tabellendefinitionen im AWS-Glue-Datenkatalog verwalten und differenzierte Berechtigungen wie Berechtigungen auf Tabellen-, Spalten- und Zellenebene definieren, um Ihre Daten zu schützen. Darüber hinaus können Sie mithilfe der Funktionen zur kontübergreifenden Datenfreigabe die Freigabe von Daten ohne Kopien aktivieren, um Daten für eine sichere Zusammenarbeit verfügbar zu machen.

Ja. Für den Zugriff auf das Lakehouse ist die Open-Source-Client-Bibliothek Apache Iceberg erforderlich. Kunden, die Drittanbieter- oder selbstverwaltete Open-Source-Engines wie Apache Spark oder Trino verwenden, müssen die Apache-Iceberg-Client-Bibliothek in ihre Abfrage-Engines integrieren, um auf das Lakehouse zugreifen zu können.

Ja, mithilfe einer Apache-Iceberg-Client-Bibliothek können Sie Daten von Apache-Spark-Engines auf AWS-Services wie Amazon EMR, AWS Glue, Athena und Amazon SageMaker oder dem Drittanbieter Apache Spark lesen und in Ihr vorhandenes Amazon Redshift schreiben. Sie müssen jedoch über die entsprechenden Schreibberechtigungen für die Tabellen verfügen, um Daten in sie zu schreiben.

Ja, Sie können Ihre Data-Lake-Tabellen in Amazon S3 mit den Tabellen in Ihrem Amazon Redshift Data Warehouse über mehrere Datenbanken hinweg zusammenführen, indem Sie eine Engine Ihrer Wahl wie Apache Spark verwenden.

Amazon S3 Tables lässt sich nun nahtlos in SageMaker Lakehouse integrieren. Dadurch wird die Abfrage und Verknüpfung von S3-Tabellen mit Daten in S3 Data Lakes, Amazon Redshift Data Warehouses und Datenquellen von Drittanbietern vereinfacht. SageMaker Lakehouse gibt Ihnen die Flexibilität, um mit dem offen Standard Apache-Iceberg direkt auf Daten in S3-Tabellen, S3-Buckets und Redshift-Warehouses zuzugreifen und diese abzufragen. Sie können Ihre Daten im Lakehouse sichern und zentral verwalten, indem Sie differenzierte Berechtigungen definieren, die einheitlich auf alle Analytik-, ML-Tools und Engines angewendet werden.

Zero-ETL-Integrationen

Alles öffnen

SageMakers Lakehouse unterstützt Zero-ETL-Integrationen mit Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL und Amazon RDS MySQL sowie acht Anwendungen: SAP, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk und Zoho CRM.

Sie können Ihre Zero-ETL-Integrationen über die AWS-Glue-Konsole konfigurieren und überwachen. Sobald die Daten aufgenommen wurden, können Sie auf die Daten von Abfrage-Engines, die mit Apache Iceberg kompatibel sind, zugreifen und diese abfragen. Weitere Informationen finden Sie bei den Zero-ETL-Integrationen.

Weitere Informationen zur Preisgestaltung für Zero-ETL finden Sie auf den Preisseiten von SageMaker Lakehouse und AWS Glue.

Preise

Alles öffnen

Für weitere Informationen besuchen Sie die Seite mit den Preisen für SageMaker Lakehouse.

Verfügbarkeit

Alles öffnen

Die nächste Generation von Amazon SageMaker ist in folgenden Regionen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Stockholm) und Südamerika (São Paulo). Für zukünftige Aktualisierungen überprüfen Sie die Liste der regionalen AWS-Services.

Ja. Das Lakehouse speichert Metadaten im AWS-Glue-Datenkatalog und bietet dasselbe SLA wie Amazon Glue an.

Erste Schritte

Alles öffnen

Das Lakehouse in SageMaker ist über Amazon SageMaker Unified Studio zugreifbar. In SageMaker Unified Studio können Sie ein neues Projekt erstellen oder ein vorhandenes Projekt auswählen. Klicken Sie in Ihrem Projekt in der linken Navigationsleiste auf „Daten“, um das Daten-Explorer-Fenster anzuzeigen. Das Daten-Explorer-Fenster bietet Ihnen eine Übersicht über die Daten, auf die Sie im Lakehouse Zugriff haben. Um Ihnen den Einstieg zu vereinfachen, wird automatisch ein standardmäßiger S3-verwalteter Katalog mit Ihrem Projekt erstellt, in dem Sie neue Datendateien zu Ihrem Lakehouse hinzufügen können. Darüber hinaus können Sie im Daten-Explorer-Fenster durch Klicken auf „(+) Daten hinzufügen“ Ihr Lakehouse weiter erweitern. Erstellen Sie dazu zusätzliche verwaltete Kataloge in Redshift Managed Storage, stellen Sie eine Verbindung zu Verbund-Datenquellen her oder laden Sie Daten in Ihre verwalteten Kataloge hoch.

Wenn Sie bereits über Datenbanken und Kataloge verfügen, können Sie diese zum Lakehouse hinzufügen, indem Sie Ihrer Projektrolle mit AWS Lake Formation Berechtigungen gewähren. Beispielsweise können Sie Ihr Amazon Redshift Data Warehouse in das Lakehouse integrieren, indem Sie den Redshift-Cluster oder den Serverless-Namespace beim Glue-Datenkatalog registrieren. Anschließend können Sie die Cluster- oder Namespace-Einladung annehmen und in Lake Formation die entsprechenden Berechtigungen für den Zugriff gewähren.

Nein, Sie müssen Ihre Daten nicht migrieren. Die Lakehouse-Architektur von SageMaker ermöglicht den direkten Zugriff auf und die Abfrage Ihrer Daten mithilfe des offenen Standards von Apache Iceberg. Sie können direkt auf Ihre Daten in Amazon S3 Data Lakes, S3-Tabellen und Amazon Redshift Data Warehouses zugreifen. Sie können auch eine Verbindung zu Verbund-Datenquellen wie Data Warehouses für Snowflake und Google BigQuery sowie zu operativen Datenbanken wie PostgreSQL und SQL Server herstellen. Daten aus operativen Datenbanken und Anwendungen von Drittanbietern können durch Zero-ETL-Integrationen nahezu in Echtzeit in verwaltete Kataloge im Lakehouse übertragen werden, ohne dass eine Infrastruktur oder komplexe Pipelines verwaltet werden müssen. Darüber hinaus können Sie Hunderte von AWS-Glue-Konnektoren verwenden, um sie in Ihre vorhandenen Datenquellen zu integrieren. 

Um Ihr Amazon Redshift Data Warehouse in Amazon SageMaker in den Lakehouse zu integrieren, gehen Sie zur Redshift-Managementkonsole und registrieren Sie den Redshift-Cluster oder den Serverless-Namespace über das Dropdown-Menü „Aktion“ beim Glue-Datenkatalog. Anschließend können Sie zu Lake Formation gehen, die Einladung für den Cluster oder Namespace annehmen, um einen Verbundkatalog zu erstellen, und die entsprechenden Berechtigungen gewähren, damit dieser im Lakehouse verfügbar ist. Eine Anleitung finden Sie in der Dokumentation hier. Diese Aufgaben können auch mithilfe der AWS Command Line Interface (AWS CLI) oder APIs/SDKs ausgeführt werden.

Um Ihren S3 Data Lake in Amazon SageMaker ins Lakehouse zu übertragen, müssen Sie ihn zunächst im AWS-Glue-Datenkatalog katalogisieren. Folgen Sie dazu den Anweisungen hier. Sobald Sie Ihren Amazon S3 Data Lake mit dem AWS-Glue-Datenkatalog katalogisiert haben, stehen Ihre Daten im Lakehouse zur Verfügung. In AWS Lake Formation können Sie einer Unified-Studio-Projektrolle Berechtigungen gewähren, um den S3 Data Lake für die Verwendung in SageMaker Unified Studio verfügbar zu machen. 

Die Amazon-SageMaker-Lakehouse-Architektur ermöglicht den einheitlichen Zugriff auf alle Ihre Daten über Amazon S3 Data Lakes, Amazon Redshift Data Warehouses und Datenquellen von Drittanbietern hinweg. Amazon S3 Tables bietet den ersten Cloud-Objektspeicher mit integrierter Apache Iceberg-Unterstützung. Amazon SageMaker Lakehouse lässt sich in Amazon S3 Tables integrieren, sodass Sie über AWS-Analytik-Services wie Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue oder Apache Iceberg-kompatible Engines (Apache Spark oder PyIceberg) auf S3-Tabellen zugreifen können. Das Lakehouse ermöglicht außerdem die zentrale Verwaltung differenzierter Datenzugriffsberechtigungen für S3-Tabellen und andere Daten und wendet diese konsistent auf alle Engines an.


Um zu beginnen, navigieren Sie zur Amazon-S3-Konsole und aktivieren Sie die Integration des S3-Tabellen-Buckets mit den AWS-Analytik-Services. Sobald die Integration aktiviert ist, navigieren Sie zu AWS Lake Formation, um Ihrer SageMaker-Unified-Studio-Projektrolle Berechtigungen für Ihren S3-Tabellen-Bucket zu gewähren. Anschließend können Sie die integrierten Analytik-Services in SageMaker Unified Studio nutzen, um Daten in S3-Tabellen abzufragen und zu analysieren. Sie können Daten aus Amazon S3 Tables sogar mit anderen Quellen kombinieren, beispielsweise mit Amazon Redshift Data Warehouses, Daten von Drittanbietern und Verbund-Datenquellen (Amazon DynamoDB, Snowflake oder PostgreSQL). 

Auf das Lakehouse kann direkt über Amazon SageMaker Unified Studio zugegriffen werden. SageMaker Unified Studio bietet eine integrierte Benutzererfahrung, um auf alle Ihre Daten aus dem Lakehouse zuzugreifen und sie mithilfe vertrauter AWS-Tools für Modellentwicklung, generative KI, Datenverarbeitung und SQL-Analytik zu nutzen. Um zu beginnen, können Sie sich mit Ihren Unternehmensanmeldeinformationen bei SageMaker Unified Studio in Ihre SageMaker-Domain anmelden. In wenigen kurzen Schritten in SageMaker Unified Studio können Administratoren Projekte erstellen, indem sie ein bestimmtes Projektprofil auswählen. Anschließend können Sie ein Projekt auswählen, um mit Daten im Lakehouse zu arbeiten. Sobald ein Projekt ausgewählt wurde, erhalten Sie im Daten-Explorer-Fenster eine einheitliche Ansicht der Daten in Ihrem Lakehouse und können an einem Ort auf Ihre Abfrage-Engines und Entwickler-Tools zugreifen.

Die offene Lakehouse-Architektur von SageMaker bietet Ihnen außerdem die Flexibilität, mit allen Apache Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Sie können Analytik-Tools und -Engines Ihrer Wahl verwenden, wie beispielsweise SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools, und mit Daten zusammenarbeiten, die im Lakehouse gespeichert sind.

Ja. Die offene Lakehouse-Architektur von SageMaker bietet Ihnen die Flexibilität, mit allen Apache Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Sie können Analytik-Tools und -Engines Ihrer Wahl verwenden, wie z. B. SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools, und mit den im Lakehouse gespeicherten Daten zusammenarbeiten.