- Amazon SageMaker›
- Arquitectura de lake house›
- Preguntas frecuentes
Preguntas frecuentes sobre la arquitectura de lake house
Temas de la página
General
Abrir todoLa próxima generación de Amazon SageMaker se basa en una arquitectura de laek house abierta y totalmente compatible con Apache Iceberg. Unifica todos los datos en los lagos de datos de Amazon S3, incluido S3 Tables, y los almacenes de datos de Amazon Redshift. Esto lo ayuda a crear aplicaciones de análisis y de IA/ML útiles en una sola copia de los datos. Conecte datos de orígenes adicionales mediante integraciones sin ETL con bases de datos y aplicaciones operativas, federación de consultas con orígenes de datos y federación de catálogos de tablas remotas de Apache Iceberg. Lleve los datos de bases de datos operativas, como Amazon DynamoDB y Amazon Aurora MySQL, y aplicaciones, como SAP y Salesforce, a su lake house casi en tiempo real mediante integraciones sin ETL. Acceda a los datos y consúltelos en el lugar con las capacidades de consulta federadas en los orígenes de datos, como Google BigQuery, Snowflake, etc. Con la federación de catálogos para catálogos remotos de Iceberg, acceda a las tablas de Iceberg almacenadas en S3 y catalogadas en Databricks Unity Catalog, Snowflake Polaris Catalog y cualquier catálogo REST de Iceberg personalizado directamente desde los motores de análisis de AWS. Obtenga flexibilidad para acceder a los datos y consultarlos en el lugar con todas las herramientas y los motores compatibles con Iceberg. Proteja sus datos mediante la definición de controles de acceso integrados que se aplican en todas las herramientas y los motores de análisis y machine learning.
La arquitectura de lake house tiene principalmente tres ventajas:
- Acceso unificado a los datos: el lake house unifica los datos en los lagos de datos de Amazon S3, incluido S3 Tables, y los almacenes de datos de Amazon Redshift. Conecte datos de orígenes adicionales mediante integraciones sin ETL con bases de datos y aplicaciones operativas, federación de consultas con orígenes de datos y federación de catálogos de tablas remotas de Apache Iceberg. Lleve los datos de bases de datos operativas, como Amazon DynamoDB y Amazon Aurora MySQL, y aplicaciones, como SAP y Salesforce, a su lake house casi en tiempo real mediante integraciones sin ETL. Acceda a los datos y consúltelos en el lugar con las capacidades de consulta federadas en los orígenes de datos, como Google BigQuery, Snowflake, etc. Utilice la federación de catálogos para acceder directamente a las tablas de Iceberg almacenadas en S3 y catalogadas en Databricks Unity Catalog, Snowflake Polaris Catalog y cualquier catálogo REST de Iceberg personalizado de los motores de análisis de AWS.
- Compatibilidad de Apache Iceberg: el lake house brinda la flexibilidad de acceder a todos sus datos y consultarlos en el lugar, desde una amplia gama de servicios de AWS y herramientas y motores de código abierto y de terceros, compatibles con Apache Iceberg. Puede utilizar las herramientas y motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de IA/ML y colaborar con una única copia de los datos almacenados en Amazon S3 o Amazon Redshift.
- Acceso seguro a los datos: proteja los datos con controles de acceso detallados e integrados en los controles de acceso a nivel de tabla, columna o celda, y aplique esos permisos en todas sus herramientas y motores de análisis. Utilice políticas de acceso basadas en etiquetas, atributos o roles para cumplir con sus requisitos de seguridad. Comparta datos en toda su organización sin crear copias.
Amazon SageMaker se basa en una arquitectura de lake house abierta que unifica los datos en toda su propiedad de datos. Los datos de diferentes orígenes se organizan en contenedores lógicos llamados catálogos. Cada catálogo representa orígenes como los almacenes de datos de Amazon Redshift, los lagos de datos de S3 o las bases de datos. También puede crear nuevos catálogos para almacenar datos en Amazon S3 o el almacenamiento administrado de Redshift (RMS). Se puede acceder directamente al lake house desde SageMaker Unified Studio y se puede acceder a los datos del lake house desde motores compatibles con Apache Iceberg, como Apache Spark, Athena o Amazon EMR. Además, también puede conectarse a los datos de su lake house y analizarlos mediante herramientas de SQL. Los datos se protegen mediante la definición de controles de acceso detallados, que se aplican en todas las herramientas y motores que acceden a los datos.
Capacidades
Abrir todoAmazon SageMaker unifica el control de acceso a sus datos con dos funciones: 1) el lake house permite definir permisos detallados. Estos permisos los aplican motores de consulta como Amazon EMR, Athena y Amazon Redshift. 2) El lake house permite acceder a sus datos en el lugar, lo que elimina la necesidad de hacer copias de los datos. Puede mantener una única copia de los datos y un único conjunto de políticas de control de acceso para beneficiarse de un control de acceso detallado y unificado en el lake house.
La arquitectura de lake house de SageMaker usa varios catálogos técnicos del catálogo de datos de AWS Glue, Lake Formation y Amazon Redshift para proporcionar un acceso unificado a los datos en todos los lagos de datos y almacenes de datos. Usa el catálogo de datos de AWS Glue y Lake Formation para almacenar las definiciones y los permisos de las tablas. Los permisos detallados de Lake Formation están disponibles para las tablas definidas en el lake house. Puede administrar las definiciones de tablas en el catálogo de datos de AWS Glue y definir permisos detallados, como permisos a nivel de tabla, de columna y de celda, para proteger sus datos. Además, si utiliza las funciones de intercambio de datos entre cuentas, puede habilitar el uso compartido de datos sin copias para que los datos estén disponibles para una colaboración segura.
Sí. Se requiere la biblioteca de cliente de Apache Iceberg de código abierto para acceder al lake house. Los clientes que utilizan motores de código abierto de administración automática o de terceros, como Apache Spark o Trino, deben incluir la biblioteca de cliente de Apache Iceberg en sus motores de consulta para acceder al lake house.
Sí, con una biblioteca de cliente de Apache Iceberg, puede leer y escribir datos en su Amazon Redshift existente desde los motores Apache Spark de los servicios de AWS como Amazon EMR, AWS Glue, Athena y Amazon SageMaker o Apache Spark de terceros. Sin embargo, debe tener los permisos de escritura adecuados en las tablas para escribir datos en ellas.
Sí, puede unir las tablas de su lago de datos en Amazon S3 con las tablas de su almacén de datos de Amazon Redshift en varias bases de datos mediante el motor que elija, como Apache Spark.
Amazon S3 Tables ahora se integra sin inconvenientes con el lake house de SageMaker, lo que facilita la consulta y la unión de S3 Tables con datos en lagos de datos de S3, almacenes de datos de Amazon Redshift y orígenes de datos de terceros. El lake house de SageMaker ofrece la flexibilidad de acceder a los datos y consultarlos localmente en S3 Tables, buckets de S3 y almacenes de Redshift mediante el estándar abierto de Apache Iceberg. Puede proteger y administrar de forma centralizada sus datos en el lake house mediante la definición de permisos detallados que se aplican de forma coherente en todas las herramientas y motores de análisis y ML.
Integraciones sin ETL
Abrir todoEl lake house de SageMaker admite integraciones sin ETL con Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL y Amazon RDS MySQL, y ocho aplicaciones: SAP, Salesforce, Salesforce Pardot, ServiceNow, anuncios de Facebook, anuncios de Instagram, Zendesk y Zoho CRM.
Puede configurar y supervisar sus integraciones sin ETL a través de la consola de AWS Glue. Una vez ingeridos los datos, puede acceder a estos y consultarlos desde motores de consulta compatibles con Apache Iceberg. Para obtener más información, visite Integraciones sin ETL.
Para obtener más información sobre los precios de la modalidad sin ETL, visite las páginas de precios del lake house de SageMaker y AWS Glue.
Precios
Abrir todoVisite la página de precios del lake house de SageMaker para obtener más información.
Disponibilidad
Abrir todoLa próxima generación de Amazon SageMaker se encuentra disponible en las regiones: Este de EE. UU. (norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Hong Kong), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) y América del Sur (São Paulo). Para obtener actualizaciones futuras, consulte la lista de servicios regionales de AWS.
Sí. El lake house almacena los metadatos en el catálogo de datos de AWS Glue y ofrece el mismo SLA que Amazon Glue.
Introducción
Abrir todoSe puede acceder al lake house de SageMaker desde Amazon SageMaker Unified Studio. Desde SageMaker Unified Studio, puede crear un proyecto nuevo o seleccionar un proyecto existente. Desde su proyecto, haga clic en Datos en la barra de navegación de la izquierda para ver el panel del explorador de datos. El panel del explorador de datos le ofrece una vista de los datos a los que tiene acceso en el lake house. Para ayudarlo a comenzar, se crea automáticamente un catálogo administrado predeterminado de S3 con su proyecto, donde puede agregar nuevos archivos de datos a su lake house. Además, desde el panel del explorador de datos, al hacer clic en (+) Agregar datos, puede continuar creando el lake house mediante la creación de catálogos administrados adicionales en el almacenamiento administrado de Redshift, la conexión a orígenes de datos federados o la carga de datos a sus catálogos administrados.
Si tiene bases de datos y catálogos existentes, puede agregarlos al lake house mediante la concesión de permisos para su rol de proyecto mediante AWS Lake Formation. Por ejemplo, puede llevar su almacén de datos de Amazon Redshift al lake house mediante el registro del clúster de Redshift o el espacio de nombres sin servidor en el catálogo de datos de Glue. A continuación, puede aceptar la invitación al clúster o al espacio de nombres y conceder los permisos correspondientes en Lake Formation para que esté disponible para el acceso.
No, no tiene que migrar sus datos. La arquitectura de lake house de SageMaker permite acceder a sus datos y consultarlos en el lugar, con el estándar abierto de Apache Iceberg. Puede acceder directamente a sus datos en los lagos de datos de Amazon S3, S3 Tables y los almacenes de datos de Amazon Redshift. También puede conectarse a orígenes de datos federados, como los almacenes de datos de Snowflake y Google BigQuery, así como a bases de datos operativas, como PostgreSQL y SQL Server. Los datos de las bases de datos operativas y las aplicaciones de terceros se pueden incorporar a catálogos administrados en el lake house casi en tiempo real mediante integraciones sin ETL, sin tener que mantener infraestructuras ni canalizaciones complejas. Además de estos, puede usar cientos de conectores de AWS Glue para integrarlos con sus orígenes de datos existentes.
Para incorporar su almacén de datos de Amazon Redshift al lake house de Amazon SageMaker, vaya a la consola de administración de Redshift y registre el clúster de Redshift o el espacio de nombres sin servidor con el catálogo de datos de Glue mediante el menú desplegable Acción. A continuación, puede ir a Lake Formation y aceptar la invitación al clúster o al espacio de nombres para crear un catálogo federado y conceder los permisos adecuados para que esté disponible para el acceso al lake house. Las instrucciones están disponibles en la documentación aquí. Estas tareas también se pueden realizar mediante la interfaz de la línea de comandos de AWS (AWS CLI) o las API o los SDK.
Para llevar su lago de datos de S3 al lake house en Amazon SageMaker, primero debe catalogar su lago de datos S3 en el catálogo de datos de AWS Glue; para ello, siga las instrucciones que aparecen aquí. Una vez que haya catalogado su lago de datos de Amazon S3 con el catálogo de datos de AWS Glue, sus datos estarán disponibles para acceder a ellos en el lake house. En AWS Lake Formation, puede conceder permisos a un rol de proyecto de Unified Studio para que el lago de datos de S3 esté disponible para su uso en SageMaker Unified Studio.
La arquitectura de lake house de Amazon SageMaker unifica el acceso a todos sus datos en los lagos de datos de Amazon S3, los almacenes de datos de Amazon Redshift y los orígenes de datos de terceros. Amazon S3 Tables ofrece el primer almacén de objetos en la nube con compatibilidad integrada con Apache Iceberg. El lake house de Amazon SageMaker se integra con Amazon S3 Tables para que pueda acceder a S3 Tables desde los servicios de análisis de AWS, como Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue o motores compatibles con Apache Iceberg (Apache Spark o PyIceberg). El lake house también permite la administración centralizada de permisos de acceso a datos detallados para S3 Tables y otros datos, y los aplica de manera uniforme en todos los motores.
Para empezar, navegue hasta la consola de Amazon S3 y habilite la integración del bucket de S3 Tables con los servicios de análisis de AWS. Una vez que la integración esté habilitada, navegue hasta AWS Lake Formation para conceder permisos a su bucket de S3 Tables a su rol de proyecto de SageMaker Unified Studio. A continuación, utilizará los servicios de análisis integrados en SageMaker Unified Studio para consultar y analizar los datos de S3 Tables. Incluso puede unir datos de Amazon S3 Tables con otros orígenes, como los almacenes de datos de Amazon Redshift y orígenes de datos federados y de terceros (Amazon DynamoDB, Snowflake o PostgreSQL).
Se puede acceder directamente al lake house desde Amazon SageMaker Unified Studio. SageMaker Unified Studio ofrece una experiencia integrada para acceder a todos sus datos desde el lake house y ponerlos a trabajar con las conocidas herramientas de AWS para el desarrollo de modelos, la IA generativa, el procesamiento de datos y el análisis de SQL. Para empezar, puede iniciar sesión en su dominio de SageMaker con sus credenciales corporativas en SageMaker Unified Studio. En unos pocos pasos en SageMaker Unified Studio, los administradores pueden crear proyectos seleccionando un perfil de proyecto específico. A continuación, puede elegir un proyecto para trabajar con los datos en el lake house. Una vez que se selecciona un proyecto, obtiene una vista unificada de los datos del lake house en el panel del explorador de datos y accede a sus motores de consulta y herramientas de desarrollo en un solo lugar.
La arquitectura de lake house abierta de SageMaker también ofrece flexibilidad para acceder a los datos y consultarlos con todas las herramientas y motores compatibles con Apache Iceberg. Puede utilizar las herramientas y los motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de inteligencia artificial y machine learning, y colaborar con los datos almacenados en todo el lake house.
Sí. La arquitectura de lake house abierta de SageMaker ofrece flexibilidad para acceder a los datos y consultarlos con todas las herramientas y motores compatibles con Apache Iceberg. Puede utilizar las herramientas y los motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de inteligencia artificial y machine learning, y colaborar con los datos almacenados en el lake house.