Passer au contenu principal

Questions fréquentes (FAQ) sur Architecture Lakehouse

Généralités

Ouvrir tout

La nouvelle génération d’Amazon SageMaker repose sur une architecture de lake house ouverte, entièrement compatible avec Apache Iceberg. Il unifie toutes les données dans les lacs de données Amazon S3 et les entrepôts de données Amazon Redshift, vous aidant ainsi à créer de puissantes applications d’analytique et d’IA/ML sur une seule copie des données. Connectez des données provenant de sources supplémentaires via des intégrations zéro ETL avec des bases de données et des applications opérationnelles, une fédération de requêtes avec des sources de données et une fédération de catalogues de tableaux Apache Iceberg distantes. Importez des données provenant de bases de données opérationnelles telles qu’Amazon DynamoDB, Amazon Aurora MySQL et d’applications telles que SAP et Salesforce dans votre environnement en temps quasi réel grâce à des intégrations zéro ETL. Accédez aux données et interrogez les données sur place grâce à des fonctionnalités de requêtes fédérées provenant de sources de données telles que Google BigQuery, Snowflake, etc. Grâce à la fédération de catalogues pour les catalogues Iceberg distants, accédez aux tableaux Iceberg stockées dans S3 et cataloguées dans le catalogue Databricks Unity, le catalogue Snowflake Polaris et tout catalogue Iceberg-REST personnalisé directement depuis les moteurs d’analytique AWS. Accédez à vos données et interrogez-les de manière flexible sur place grâce à tous les outils et moteurs compatibles avec Iceberg. Sécurisez vos données en définissant des contrôles d’accès intégrés qui sont appliqués à tous les outils et moteurs d’analytique et de machine learning (ML).

L’architecture du lake house présente principalement trois avantages :

  • Accès unifié aux données : Le Lakehouse unifie les données des lacs de données Amazon S3, y compris les tableaux S3 et les entrepôts de données Amazon Redshift. Connectez des données provenant de sources supplémentaires via des intégrations zéro ETL avec des bases de données et des applications opérationnelles, une fédération de requêtes avec des sources de données et une fédération de catalogues de tableaux Apache Iceberg distantes. Importez des données provenant de bases de données opérationnelles telles qu’Amazon DynamoDB, Amazon Aurora MySQL et d’applications telles que SAP et Salesforce dans votre environnement en temps quasi réel grâce à des intégrations zéro ETL. Accédez aux données et interrogez les données sur place grâce à des fonctionnalités de requêtes fédérées provenant de sources de données telles que Google BigQuery, Snowflake, etc. Utilisez la fédération de catalogues pour accéder directement aux tableaux Iceberg stockées dans S3 et cataloguées dans le catalogue Databricks Unity, le catalogue Snowflake Polaris et tout catalogue Iceberg-REST personnalisé provenant des moteurs d’analytique AWS.
  • Apache Iceberg compatibility : le lake house vous donne la flexibilité d’accéder à toutes vos données et de les interroger sur place, à partir d’une large gamme de services AWS et d’outils et moteurs open source et tiers, compatibles avec Apache Iceberg. Vous pouvez utiliser les outils et moteurs d’analytique de votre choix, tels que SQL, Apache Spark, l’informatique décisionnelle (BI) et les outils d’IA/ML, et collaborer avec une seule copie des données stockées sur Amazon S3 ou Amazon Redshift.
  • Accès sécurisé aux données : sécurisez vos données grâce à des contrôles d’accès intégrés et précis au niveau des tableaux, des colonnes ou des cellules, et appliquez ces autorisations à tous vos outils et moteurs d’analytique. Utilisez des politiques d’accès basées sur des balises, des attributs ou des rôles pour répondre à vos exigences de sécurité. Partagez des données au sein de votre organisation sans créer de copies.

Amazon SageMaker repose sur une architecture lakehouse ouverte qui unifie les données de votre parc de données. Les données provenant de différentes sources sont organisées dans des conteneurs logiques appelés catalogues. Chaque catalogue représente des sources telles que les entrepôts de données Amazon Redshift, les lacs de données S3 ou les bases de données. Vous pouvez également créer de nouveaux catalogues pour stocker des données dans Amazon S3 ou Redshift Managed Storage (RMS). Le Lakehouse est directement accessible depuis SageMaker Unified Studio, et les données qu’il contient sont accessibles à partir de moteurs compatibles avec Apache Iceberg tels qu’Apache Spark, Athena ou Amazon EMR. En outre, vous pouvez également vous connecter aux données de votre lakehouse et les analyser à l’aide d’outils SQL. Les données sont sécurisées en définissant des contrôles d’accès précis, qui sont appliqués à tous les outils et moteurs qui accèdent aux données.

Fonctionnalités

Ouvrir tout

Amazon SageMaker unifie le contrôle d’accès à vos données grâce à deux fonctionnalités : 1) le lake house vous permet de définir des autorisations précises. Ces autorisations sont appliquées par des moteurs de requête tels qu’Amazon EMR, Athena et Amazon Redshift. 2) Le lake house vous permet d’accéder à vos données sur place, sans avoir à les copier. Vous pouvez conserver une copie unique des données et un ensemble unique de politiques de contrôle d’accès pour bénéficier d’un contrôle d’accès unifié et précis dans le lake house.

SageMaker Lakehouse s’appuie sur plusieurs catalogues techniques issus du catalogue de données AWS Glue, Lake Formation et Amazon Redshift pour fournir un accès unifié aux données entre les lacs de données et les entrepôts de données. Il utilise le catalogue de données AWS Glue et Lake Formation pour stocker les définitions des tableaux et les autorisations. Des autorisations détaillées de Lake Formation sont disponibles pour les tableaux définies dans le lakehouse. Vous pouvez gérer les définitions de vos tableaux dans le catalogue de données AWS Glue et définir des autorisations précises, telles que des autorisations au niveau des tableaux, des colonnes et des cellules, afin de sécuriser vos données. En outre, grâce aux fonctionnalités de partage de données entre comptes, vous pouvez activer le partage de données zéro copie afin de rendre les données disponibles pour une collaboration sécurisée.

Oui. La bibliothèque cliente Apache Iceberg open source est requise pour accéder au lakehouse. Les clients utilisant des moteurs open source tiers ou autogérés tels qu’Apache Spark ou Trino doivent inclure la bibliothèque cliente Apache Iceberg dans leurs moteurs de requêtes pour accéder au lakehouse.

Oui, à l’aide d’une bibliothèque cliente Apache Iceberg, vous pouvez lire et écrire des données sur votre Amazon Redshift existant à partir de moteurs Apache Spark sur des services AWS tels qu’Amazon EMR, AWS Glue, Athena et Amazon SageMaker ou le service Apache Spark tiers. Cependant, vous devez disposer des autorisations d’écriture appropriées sur les tableaux pour y écrire des données.

Oui, vous pouvez joindre vos tableaux de lac de données sur Amazon S3 aux tableaux de votre entrepôt de données Amazon Redshift sur plusieurs bases de données à l’aide du moteur de votre choix, tel qu’Apache Spark.

Les tableaux Amazon S3 s’intègrent désormais parfaitement à SageMaker Lakehouse, ce qui permet d’interroger et de joindre facilement des tableaux S3 aux données des lacs de données S3, des entrepôts de données Amazon Redshift et des sources de données tierces. SageMaker Lakehouse offre la flexibilité nécessaire pour accéder aux données et les interroger sur place dans les tableaux S3, les compartiments S3 et les entrepôts Redshift à l’aide de la norme ouverte Apache Iceberg. Vous pouvez sécuriser et gérer de manière centralisée vos données dans le lakehouse en définissant des autorisations précises, qui sont appliquées de manière cohérente à tous les outils et moteurs d’analytique et de machine learning.

Intégrations zéro ETL

Ouvrir tout

Le lake house SageMaker prend en charge les intégrations zéro ETL avec Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL et Amazon RDS MySQL, ainsi qu’avec huit applications : SAP, Salesforce, Salesforce Pardot, ServiceNow, les publicités Facebook, les publicités Instagram, Zendesk et Zoho CRM.

Vous pouvez configurer et surveiller vos intégrations Zero-ETL via la console AWS Glue. Une fois les données ingérées, vous pouvez accéder aux données et les interroger à partir de moteurs de requêtes compatibles avec Apache Iceberg. Pour plus de détails, consultez Intégrations zéro ETL.

Pour en savoir plus sur la tarification du Zero-ETL, consultez les pages de tarification de lake house SageMaker et AWS Glue.

Tarification

Ouvrir tout

Consultez la page de tarification de SageMaker Lakehouse pour plus de détails.

Disponibilité

Ouvrir tout

La prochaine génération d’Amazon SageMaker est disponible dans les régions suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Hong Kong), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Stockholm) et Amérique du Sud (São Paulo). Pour les prochaines mises à jour, veuillez consulter la liste des services régionaux AWS.

Oui. Le lake house stocke les métadonnées dans le catalogue de données AWS Glue et propose le même SLA qu’Amazon Glue.

Mise en route

Ouvrir tout

Le lakehouse de SageMaker est accessible depuis Amazon SageMaker Unified Studio. À partir de SageMaker Unified Studio, vous pouvez créer un nouveau projet ou sélectionner un projet existant. Depuis votre projet, cliquez sur Données dans la barre de navigation de gauche pour afficher le panneau de l’explorateur de données. Le panneau de l’explorateur de données vous donne un aperçu des données auxquelles vous avez accès dans le lake house. Pour vous aider à démarrer, un catalogue géré S3 par défaut est automatiquement créé avec votre projet, dans lequel vous pouvez ajouter de nouveaux fichiers de données à votre lake house. En outre, depuis le panneau de l’explorateur de données, lorsque vous cliquez sur (+) Ajouter des données, vous pouvez continuer à développer votre lakehouse en créant des catalogues gérés supplémentaires dans Redshift Managed Storage, en vous connectant à des sources de données fédérées ou en téléchargeant des données vers vos catalogues gérés.

Si vous disposez de bases de données et de catalogues existants, vous pouvez les ajouter au Lakehouse en accordant des autorisations à votre rôle de projet à l’aide d’AWS Lake Formation. Par exemple, vous pouvez transférer votre entrepôt de données Amazon Redshift au Lakehouse en enregistrant le cluster Redshift ou l’espace de noms sans serveur auprès de Glue Data Catalog. Vous pouvez ensuite accepter l’invitation au cluster ou à l’espace de noms et accorder les autorisations appropriées dans Lake Formation pour y accéder.

Non, vous n’êtes pas obligé de migrer vos données. Le lake house SageMaker vous permet d’accéder à vos données et de les interroger sur place grâce à la norme ouverte Apache Iceberg. Vous pouvez accéder directement à vos données dans les lacs de données Amazon S3, tableaux S3 et les entrepôts de données Amazon Redshift. Vous pouvez également vous connecter à des sources de données fédérées telles que les entrepôts de données Snowflake et Google BigQuery, ainsi qu’à des bases de données opérationnelles telles que PostgreSQL et SQL Server. Les données provenant de bases de données opérationnelles et d’applications tierces peuvent être intégrées dans des catalogues gérés du lake house en temps quasi réel grâce à des intégrations zéro ETL, sans avoir à gérer une infrastructure ou des pipelines complexes. En outre, vous pouvez utiliser des centaines de connecteurs AWS Glue pour intégrer vos sources de données existantes. 

Pour transférer votre entrepôt de données Amazon Redshift dans Amazon SageMaker, accédez à la console de gestion Redshift et enregistrez le cluster Redshift ou l’espace de noms sans serveur auprès de Glue Data Catalog via le menu déroulant Action. Vous pouvez ensuite accéder à Lake Formation et accepter l’invitation au cluster ou à l’espace de noms pour créer un catalogue fédéré, et accorder les autorisations appropriées pour le rendre accessible dans le lake house. Les instructions sont disponibles dans la documentation ici. Ces tâches peuvent également être effectuées à l’aide de l’interface de ligne de commande AWS (AWS CLI) ou des API/SDK.

Pour transférer votre lac de données S3 au lake house d’Amazon SageMaker, vous devez d’abord cataloguer votre lac de données S3 dans le Catalogue de données AWS Glue en suivant les instructions fournies ici. Une fois que vous avez catalogué votre lac de données Amazon S3 à l’aide du Catalogue de données AWS Glue, vos données peuvent être consultées depuis le lake house. Dans AWS Lake Formation, vous pouvez accorder des autorisations à un rôle de projet Unified Studio, afin de rendre le lac de données S3 disponible pour une utilisation dans SageMaker Unified Studio. 

L’architecture Lakehouse d’Amazon SageMaker unifie l’accès à toutes vos données via les lacs de données Amazon S3, les entrepôts de données Amazon Redshift et les sources de données tierces. Les tableaux Amazon S3 constituent le premier magasin d’objets dans le cloud avec la prise en charge intégrée d’Apache Iceberg. Amazon SageMaker’s Lakehouse s’intègre aux tableaux Amazon S3 afin que vous puissiez accéder aux tableaux S3 depuis les services d’analyse AWS, tels qu’Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue ou des moteurs compatibles avec Apache Iceberg (Apache Spark ou PyIceberg). Le Lakehouse permet également une gestion centralisée des autorisations d’accès aux données affinées pour les tableaux S3 et d’autres données, et les applique de manière cohérente à tous les moteurs.


Pour commencer, accédez à la console Amazon S3 et activez l’intégration du compartiment de tableaux S3 aux services d’analytique AWS. Une fois l’intégration activée, accédez à AWS Lake Formation pour accorder des autorisations à votre compartiment tableau S3 à votre rôle de projet SageMaker Unified Studio. Vous pouvez ensuite utiliser les services d’analytique intégrés de SageMaker Unified Studio pour interroger et analyser des données dans des tableaux S3. Vous pouvez même joindre des données provenant des tableaux Amazon S3 à d’autres sources, telles que des entrepôts de données Amazon Redshift, des sources de données tierces et fédérées (Amazon DynamoDB, Snowflake ou PostgreSQL). 

Le Lakehouse est directement accessible depuis Amazon SageMaker Unified Studio. SageMaker Unified Studio fournit une expérience intégrée qui vous permet d’accéder à toutes vos données depuis le Lakehouse et de les exploiter à l’aide d’outils AWS familiers pour le développement de modèles, l’IA générative, le traitement des données et l’analytique SQL. Pour commencer, vous pouvez vous connecter à votre domaine SageMaker à l’aide de vos informations d’identification professionnelles sur SageMaker Unified Studio. Dans SageMaker Unified Studio, les administrateurs peuvent créer des projets en quelques étapes en choisissant un profil de projet spécifique. Vous pouvez ensuite choisir un projet pour utiliser les données du Lakehouse. Une fois qu’un projet est sélectionné, vous obtenez une vue unifiée des données de votre lakehouse dans le panneau de l’explorateur de données et vous accédez à vos moteurs de requêtes et à vos outils de développement en un seul endroit.

SageMaker Lakehouse vous offre également la flexibilité nécessaire pour accéder à vos données et les interroger à l’aide de tous les outils et moteurs compatibles avec Apache Iceberg. Vous pouvez utiliser les outils et les moteurs d’analytique de votre choix, tels que SQL, Apache Spark, l’informatique décisionnelle (BI) et les outils d’IA/ML, et collaborer avec des données stockées dans le Lakehouse.

Oui. SageMaker est une architecture lakehouse ouverte vous offre la flexibilité nécessaire pour accéder à vos données et les interroger à l’aide de tous les outils et moteurs compatibles avec Apache Iceberg. Vous pouvez utiliser les outils et les moteurs d’analyse de votre choix, tels que SQL, Apache Spark, l’informatique décisionnelle (BI) et les outils d’IA/ML, et collaborer avec les données stockées dans le Lakehouse.