Pular para o conteúdo principal

Perguntas frequentes sobre a arquitetura de lakehouse

Geral

Abrir tudo

A próxima geração do Amazon SageMaker é criada em uma arquitetura de lakehouse aberta, totalmente compatível com o Apache Iceberg. Ele unifica todos os dados dos data lakes do Amazon S3, incluindo Tabelas do S3, e dos data warehouses do Amazon Redshift, ajudando a criar aplicações poderosas de analytics e IA/ML em uma única cópia dos dados. Conecte dados de fontes adicionais por meio de integrações ETL zero com bancos de dados e aplicações operacionais, federação de consultas com fontes de dados e federação de catálogos de tabelas remotas do Apache Iceberg. Traga dados de bancos de dados operacionais, como Amazon DynamoDB, Amazon Aurora mySQL e aplicações como SAP e Salesforce, para o seu lakehouse quase em tempo real por meio de integrações ETL zero. Acesse e consulte dados no local com recursos de consulta federada em fontes de dados como Google BigQuery e Snowflake, entre muitas outras. Com a federação de catálogos para catálogos remotos do Iceberg, acesse tabelas do Iceberg armazenadas no S3 e catalogadas no Databricks Unity Catalog, Snowflake Polaris Catalog e qualquer catálogo Iceberg-REST personalizado diretamente dos mecanismos de analytics da AWS. Obtenha flexibilidade para acessar e consultar seus dados no local com todas as ferramentas e mecanismos compatíveis com o Iceberg. Proteja seus dados definindo controles de acesso integrados que são aplicados em todas as ferramentas e mecanismos de analytics e machine learning (ML).

A arquitetura de lakehouse tem basicamente três benefícios:

  • Acesso unificado aos dados: o lakehouse unifica os dados entre os data lakes do Amazon S3, incluindo Tabelas do S3 e data warehouses do Amazon Redshift. Conecte dados de fontes adicionais por meio de integrações ETL zero com bancos de dados e aplicações operacionais, federação de consultas com fontes de dados e federação de catálogos de tabelas remotas do Apache Iceberg. Traga dados de bancos de dados operacionais, como Amazon DynamoDB, Amazon Aurora mySQL e aplicações como SAP e Salesforce, para o seu lakehouse quase em tempo real por meio de integrações ETL zero. Acesse e consulte dados no local com recursos de consulta federada em fontes de dados como Google BigQuery e Snowflake, entre muitas outras. Use a federação de catálogos para acessar diretamente tabelas do Iceberg armazenadas no S3 e catalogadas no Databricks Unity Catalog, Snowflake Polaris Catalog e qualquer catálogo Iceberg-REST personalizado dos mecanismos de analytics da AWS.
  • Compatibilidade com o Apache Iceberg: o lakehouse proporciona a flexibilidade de acessar e consultar todos os seus dados diretamente, usando uma ampla variedade de serviços da AWS, além de ferramentas e mecanismos de código aberto e de entidades externas, compatíveis com o Apache Iceberg. É possível usar ferramentas e mecanismos de análise de sua preferência, como SQL, Apache Spark, ferramentas de business intelligence (BI) e AI/ML, e colaborar com uma única cópia dos dados armazenados no Amazon S3 ou no Amazon Redshift.
  • Acesso seguro aos dados: proteja seus dados com controles de acesso integrados e detalhados em nível de tabela, coluna ou célula e aplique essas permissões em todas as suas ferramentas e mecanismos de analytics. Use políticas de acesso baseadas em etiquetas, atributos ou perfis para atender aos seus requisitos de segurança. Compartilhe dados em toda a sua organização sem criar cópias.

O Amazon SageMaker é construído em uma arquitetura de lakehouse aberta que unifica os dados em todo o seu patrimônio de dados. Os dados de diferentes fontes são organizados em contêineres lógicos, chamados de catálogos. Cada catálogo representa fontes como data warehouses do Amazon Redshift, data lakes do S3 ou banco de dados. Você também pode criar novos catálogos para armazenar dados no Amazon S3 ou no Redshift Managed Storage (RMS). O lakehouse é acessível diretamente do Estúdio Unificado SageMaker, e os dados no lakehouse podem ser acessados a partir de mecanismos compatíveis com o Apache Iceberg, como Apache Spark, Athena ou Amazon EMR. Além disso, você também pode se conectar e analisar dados no lakehouse usando ferramentas SQL. Os dados são protegidos por meio da definição de controles de acesso granular, que são aplicados em todas as ferramentas e mecanismos que acessam os dados.

Recursos

Abrir tudo

O Amazon SageMaker unifica o controle de acesso aos seus dados com dois recursos: 1) O lakehouse permite definir permissões detalhadas. Essas permissões são aplicadas pelos mecanismos de consulta, como o Amazon EMR, o Athena e o Amazon Redshift. 2) O lakehouse possibilita o acesso direto aos seus dados, dispensando a necessidade de criar cópias de dados. Você pode manter uma única cópia dos dados e um único conjunto de políticas de controle de acesso para aproveitar o controle de acesso granular unificado no lakehouse.

A arquitetura de lakehouse do SageMaker usa vários catálogos técnicos no Catálogo de Dados do AWS Glue, Lake Formation e Amazon Redshift para fornecer acesso unificado aos dados em data lakes e data warehouses. Ela usa o Catálogo de Dados do AWS Glue e o Lake Formation para armazenar definições e permissões de tabelas. As permissões granulares do Lake Formation estão disponíveis para as tabelas definidas no lakehouse. É possível gerenciar as definições de suas tabelas no Catálogo de Dados do AWS Glue e definir permissões granulares, como permissões em nível de tabela, em nível de coluna e em nível de célula, para garantir a segurança dos dados. Além disso, ao usar as funcionalidades de compartilhamento de dados entre contas, você pode habilitar o compartilhamento de dados sem cópias, garantindo que os dados fiquem disponíveis para uma colaboração segura.

Sim. A biblioteca cliente do Apache Iceberg de código aberto é necessária para acessar o lakehouse. Os clientes que usam mecanismos de código aberto, como o Apache Spark ou o Trino, de entidades externas ou autogerenciados, precisam incluir a biblioteca cliente do Apache Iceberg em seus mecanismos de consulta para acessar o lakehouse.

Sim. Com uma biblioteca cliente do Apache Iceberg, é possível realizar a leitura e a gravação de dados no Amazon Redshift já existente ao usar mecanismos Apache Spark em serviços da AWS, como o Amazon EMR, o AWS Glue, o Athena e o Amazon SageMaker, ou até mesmo no Apache Spark de entidades externas. No entanto, é necessário ter as permissões de gravação adequadas nas tabelas para realizar a gravação de dados.

Sim. É possível combinar as tabelas do seu data lake no Amazon S3 com as tabelas do seu data warehouse no Amazon Redshift em diferentes bancos de dados, usando o mecanismo de sua preferência, como o Apache Spark.

Agora, as Tabelas do Amazon S3 se integram perfeitamente ao SageMaker Lakehouse, facilitando a consulta e a união das Tabelas do S3 com dados em data lakes do S3, data warehouses do Amazon Redshift e fontes de dados de terceiros. O SageMaker Lakehouse oferece a flexibilidade de acessar e consultar dados no local nas Tabelas do S3, buckets do S3 e warehouses do Redshift usando o padrão aberto Apache Iceberg. Você pode proteger e gerenciar de forma centralizada os dados do lakehouse definindo permissões detalhadas que são aplicadas de forma consistente em todas as ferramentas e mecanismos de analytics e ML.

Integrações ETL zero

Abrir tudo

O lakehouse do SageMaker oferece suporte a integrações ETL zero com o Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL e Amazon RDS MySQL, além de oito aplicações: SAP, Salesforce, Salesforce Pardot, ServiceNow, anúncios do Facebook, anúncios do Instagram, Zendesk e Zoho CRM.

Você pode configurar e monitorar suas integrações ETL zero por meio do console do AWS Glue. Após a ingestão dos dados, você pode acessá-los e consultá-los ao usar mecanismos de consulta compatíveis com o Apache Iceberg. Para obter mais detalhes, acesse Integrações ETL zero.

Para obter mais informações sobre os preços do ETL zero, acesse as páginas de preços do lakehouse do SageMaker e do AWS Glue.

Preços

Abrir tudo

Acesse a página de preços do lakehouse do SageMaker para obter mais detalhes.

Disponibilidade

Abrir tudo

A próxima geração do Amazon SageMaker está disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Estocolmo) e América do Sul (São Paulo). Para atualizações futuras, consulte a lista de serviços regionais da AWS.

Sim. O lakehouse armazena metadados no Catálogo de Dados do AWS Glue e oferece o mesmo SLA do Amazon Glue.

Conceitos básicos

Abrir tudo

O lakehouse no SageMaker pode ser acessado a partir do Estúdio Unificado Amazon SageMaker. No Estúdio Unificado SageMaker, você pode criar um novo projeto ou selecionar um existente. No seu projeto, clique em Dados na navegação à esquerda para visualizar o painel Explorador de dados. O painel Explorador de dados oferece uma visão dos dados aos quais você tem acesso no lakehouse. Para ajudar você a começar, um catálogo gerenciado do S3 padrão é criado automaticamente com o seu projeto, onde você pode adicionar novos arquivos de dados ao seu lakehouse. Além disso, no painel Explorador de dados, ao clicar em (+) Adicionar dados, você pode continuar a construir seu lakehouse criando catálogos gerenciados adicionais no Redshift Managed Storage, conectar-se a fontes de dados federadas ou fazer upload de dados em seus catálogos gerenciados.

Se você já possui bancos de dados e catálogos, pode adicioná-los ao lakehouse concedendo permissões ao seu perfil de projeto usando o AWS Lake Formation. Por exemplo, você pode trazer seu data warehouse do Amazon Redshift para o lakehouse registrando o cluster do Redshift ou o namespace sem servidor no Catálogo de Dados do Glue. Em seguida, pode aceitar o convite para o cluster ou namespace e conceder as permissões apropriadas no Lake Formation para disponibilizá-lo para acesso.

Não, você não precisa migrar dados. A arquitetura de lakehouse do SageMaker permite o acesso e a consulta aos dados diretamente, utilizando o padrão aberto do Apache Iceberg. É possível acessar diretamente seus dados em data lakes do Amazon S3, Tabelas do S3 e data warehouses do Amazon Redshift. Você também pode se conectar a fontes de dados federadas, como data warehouses do Snowflake e do Google BigQuery, bem como bancos de dados operacionais, como o PostgreSQL e o SQL Server. Os dados de bancos de dados operacionais e de aplicações de terceiros podem ser trazidos para catálogos gerenciados no lakehouse quase em tempo real por meio de integrações ETL zero, sem a necessidade de manter a infraestrutura ou pipelines complexos. Além disso, é possível usar centenas de conectores do AWS Glue para integrar-se com suas fontes de dados existentes. 

Para transferir seu data warehouse do Amazon Redshift para o lakehouse no Amazon SageMaker, acesse o console de gerenciamento do Redshift e registre o cluster do Redshift ou o namespace sem servidor no Catálogo de Dados do Glue por meio do menu suspenso Ação. Em seguida, você pode acessar o Lake Formation, aceitar o convite do cluster ou namespace para criar um catálogo federado e conceder as permissões apropriadas para disponibilizá-lo para acesso no lakehouse. As instruções estão disponíveis na documentação aqui. Essas tarefas também podem ser realizadas usando a AWS Command Line Interface (AWS CLI) ou APIs/SDKs.

Para transferir seu data lake do S3 para o lakehouse no Amazon SageMaker, primeiro você deve catalogar seu data lake do S3 no Catálogo de Dados do AWS Glue, seguindo as instruções aqui. Depois de catalogar seu data lake do Amazon S3 usando o Catálogo de Dados do AWS Glue, seus dados estarão disponíveis para acesso no lakehouse. No AWS Lake Formation, você pode conceder permissões a um perfil do Estúdio Unificado para disponibilizar o data lake do S3 para uso no Estúdio Unificado SageMaker. 

A arquitetura de lakehouse do Amazon SageMaker unifica o acesso a todos os seus dados em data lakes do Amazon S3, data warehouses do Amazon Redshift e fontes de dados de terceiros. As Tabelas do Amazon S3 oferecem o primeiro armazenamento de objetos na nuvem com suporte integrado ao Apache Iceberg. O lakehouse do Amazon SageMaker se integra a Tabelas do Amazon S3, para que você possa acessar Tabelas do S3 a partir de serviços de analytics da AWS, como o Amazon Redshift, o Amazon Athena, o Amazon EMR e o AWS Glue, ou mecanismos compatíveis com o Apache Iceberg (Apache Spark ou PyIceberg). O lakehouse também permite o gerenciamento centralizado de permissões de acesso a dados detalhadas para Tabelas do S3 e outros dados, aplicando-as de maneira consistente em todos os mecanismos.


Para começar, acesse o console do Amazon S3 e habilite a integração do bucket de Tabelas do S3 com serviços de analytics da AWS. Assim que a integração estiver habilitada, acesse o AWS Lake Formation para conceder permissões ao seu bucket de Tabelas do S3 para o perfil do seu projeto do Estúdio Unificado SageMaker. Em seguida, utilize os serviços de analytics integrados no Estúdio Unificado SageMaker para consultar e analisar dados em Tabelas do S3. Você pode até mesmo unir dados de Tabelas do Amazon S3 com outras fontes, como data warehouses do Amazon Redshift, fontes de dados de terceiros e federadas (Amazon DynamoDB, Snowflake ou PostgreSQL). 

O acesso ao lakehouse é feito diretamente a partir do Estúdio Unificado Amazon SageMaker. O Estúdio Unificado SageMaker oferece uma experiência integrada para acessar todos os seus dados do lakehouse e colocá-los em prática usando ferramentas conhecidas da AWS para desenvolvimento de modelos, IA generativa, processamento de dados e analytics de SQL. Para começar, você pode fazer login no seu domínio do SageMaker usando suas credenciais corporativas no Estúdio Unificado SageMaker. Em algumas etapas simples no Estúdio Unificado SageMaker, os administradores podem criar projetos ao selecionar um perfil de projeto específico. Em seguida, você pode escolher um projeto para trabalhar com os dados no lakehouse. Após a seleção de um projeto, você recebe uma visualização unificada dos dados em seu lakehouse no painel Explorador de dados e acessa seus mecanismos de consulta e ferramentas de desenvolvimento em um único local.

A arquitetura de lakehouse aberta do SageMaker também oferece flexibilidade para acessar e consultar seus dados com todas as ferramentas e mecanismos compatíveis com o Apache Iceberg. Você pode usar ferramentas e mecanismos de analytics de sua escolha, como SQL, Apache Spark, business intelligence (BI) e ferramentas de IA/ML, e colaborar com os dados armazenados no lakehouse.

Sim. A arquitetura de lakehouse aberta do SageMaker oferece flexibilidade para acessar e consultar seus dados com todas as ferramentas e mecanismos compatíveis com o Apache Iceberg. Você pode usar ferramentas e mecanismos de analytics de sua escolha, como SQL, Apache Spark, business intelligence (BI) e ferramentas de IA/ML, e colaborar com os dados armazenados no lakehouse.