Qual é a diferença entre um data warehouse, um data lake e um data mart?

Data warehouses, data lakes e data marts são diferentes soluções de armazenamento em nuvem. Um data warehouse armazena dados em um formato estruturado. Ele é um repositório central de dados pré-processados para análise e business intelligence. Um data mart é um data warehouse que atende às necessidades de uma unidade de negócios específica, como o departamento de finanças, marketing ou vendas da empresa. Por outro lado, um data lake é um repositório central para dados brutos e dados não estruturados. Você pode armazenar os dados primeiro e processá-los mais tarde.

Semelhanças entre data warehouses, data marts e data lakes

Atualmente, as organizações têm acesso a um volume de dados em constante crescimento. No entanto, elas precisam classificar, processar, filtrar e analisar os dados brutos para derivar benefícios práticos. Ao mesmo tempo, elas também precisam seguir práticas rígidas de segurança e proteção de dados para conformidade regulatória. Por exemplo, estas são algumas práticas que as organizações devem seguir:

  • Coletar dados de diferentes fontes, como aplicações, fornecedores, sensores de Internet das Coisas (IoT) e outros terceiros.
  • Processar os dados em um formato consistente, confiável e útil. Por exemplo, as organizações podem processar dados para garantir que todos os dados no sistema estejam em um formato comum ou resumir relatórios diários.
  • Preparar os dados com a formatação de arquivos XML para software machine learning ou com a geração de relatórios para pessoas.

As organizações usam várias ferramentas e soluções para alcançar os resultados de análise de dados. Data warehouses, marts e lakes são soluções que ajudam no armazenamento de dados.

Leia mais sobre XML »

Benefícios de um data warehouse, data lake e data mart baseado em nuvem

Todas essas três soluções de armazenamento ajudam a aumentar a disponibilidade, confiabilidade e segurança dos dados. Confira alguns exemplos de como você pode usá-las:

  • Armazenar dados de negócios com segurança para análise
  • Armazenar um volume de dados ilimitado pelo tempo que precisar
  • Dividir silos com integração de dados de múltiplos processos de negócios
  • Analisar históricos de dados ou bancos de dados herdados
  • Realizar análise de dados em lote e em tempo real

Além disso, as três soluções têm bom custo-benefício. Você paga pelo espaço de armazenamento que usa. É possível armazenar dados, analisá-los para padrões e tendências e usar as informações para otimizar suas operações de negócios.

Principais diferenças: data warehouses vs.data marts

Um data warehouse é um banco de dados relacional que armazena dados de sistemas transacionais e aplicações de funções empresariais. Todos os dados no warehouse são estruturados ou pré-modelados em tabelas. A estrutura e o esquema de dados são projetados para otimizar consultas SQL rápidas. Um data mart é um outro termo de marketing para a mesma tecnologia. Também se trata de um banco de dados relacional, mas o uso prático difere muito do de um data warehouse. Os principais pontos de diferença apresentados abaixo.

Leia mais sobre SQL »

Fontes de dados

Os data warehouses têm várias fontes, tanto internas quanto externas. É possível extrair dados de qualquer lugar, transformá-los em um formato estruturado e carregá-los no warehouse. Os data marts têm menos fontes de dados e tendem a ser menores em tamanho.

Foco

Os data warehouses geralmente armazenam dados de várias unidades de negócios. Eles integram dados de toda a organização centralmente para análises abrangentes. Os data marts têm foco em um único assunto e são mais descentralizados por natureza. Eles frequentemente filtram e resumem as informações de outro data warehouse existente.

Utilização

Vários usuários e projetos exigem dados armazenados em data warehouses. Portanto, os warehouses costumam ter uma vida útil mais longa e natureza mais complexa. Data marts, por outro lado, podem ter o foco em um projeto com uso limitado. As equipes preferem criar data marts a partir do data warehouse da empresa e encerrá-los assim que o caso de uso é concluído.

Abordagem de projeto

Cientistas de dados usam uma abordagem de cima para baixo ao projetar um data warehouse. Eles planejam primeiro a arquitetura geral e resolvem os desafios à medida que aparecem. No entanto, com um data mart, o engenheiro de dados já conhece detalhes como valores, tipos de dado e fontes de dados externas. Eles podem planejar a implementação desde o início e adotar uma abordagem de baixo para cima no projeto do data mart.

 

Características Data Warehouse Data mart
Escopo

Várias áreas centralizadas e integradas

Uma área específica e descentralizada

Usuários

De toda a organização

Uma única comunidade ou departamento

Fonte de dados

Muitas fontes

Uma ou poucas fontes, ou uma parte dos dados já coletados em um data warehouse

Tamanho

Grandes, pode variar de centenas de gigabytes a petabytes

Pequenos, normalmente até algumas dezenas de gigabytes

Design

De cima para baixo

De baixo para cima

Detalhes dos dados

Dados completos e detalhados

Pode manter dados resumidos

 

Saiba mais sobre Data Warehouses

Saiba mais sobre Data Marts

Principais diferenças: data warehouses vs.data lakes

Um data warehouse e um data lake são duas tecnologias relacionadas, mas fundamentalmente diferentes. Enquanto um data warehouse armazena dados estruturados, um lake é um repositório centralizado que permite armazenar qualquer dado em qualquer escala. Em comparação com um data warehouse, um data lake oferece mais opções de armazenamento, tem mais complexidade e tem diferentes casos de uso. Os principais pontos de diferença apresentados abaixo.

Fontes de dados

Tanto data lakes quanto data warehouses podem ter fontes de dados ilimitadas. No entanto, o data warehousing requer que você projete seu esquema antes de salvar os dados. Só é possível salvar dados estruturados no sistema. Por outro lado, data lakes não têm esses requisitos. Eles podem armazenar dados semiestruturados ou não estruturados, como logs de servidores da Web, dados de fluxos de cliques, de mídias sociais e de sensor.

Pré-processamento

Um data warehouse normalmente requer pré-processamento antes do armazenamento. Ferramentas de extração, transformação e carregamento (ETL) são usadas para limpar, filtrar e estruturar dados definidos com antecedência. Em contraste, data lakes mantêm qualquer dado. Há a flexibilidade de escolher entre realizar pré-processamento ou não. As empresas normalmente usam ferramentas de extração, carregamento e transformação (ELT). Elas carregam os dados no lake primeiro e os transformam apenas quando é necessário.

Qualidade dos dados

Um data warehouse tende a ser mais confiável quando é possível realizar o pré-processamento com antecedência. Várias funções, como desduplicação, classificação, resumo e verificação podem ser feitas com antecedência para garantir a precisão dos dados. Caso não seja feita uma verificação prévia, dados duplicados ou errados e não verificados podem acabar no data lake.

Performance

Um data warehouse é projetado para a mai rápida performance de pesquisa. Usuários de negócios preferem data warehouses pois conseguem gerar relatórios com mais eficiência. Em contraste, a arquitetura de data lake prioriza volume de armazenamento e custo em vez da performance. Você obtém um volume de armazenamento muito maior com menor custo e ainda pode acessar os dados com uma velocidade razoável.

 

Características Data Warehouse Data lake
Dados

Dados relacionais de sistemas transacionais, bancos de dados operacionais e aplicativos de linha de negócios

Todos os dados, incluindo estruturados, semiestruturados e não estruturados

Esquema

Geralmente projetado antes da implementação do data warehouse, mas também pode ser gravado no momento da análise

(esquema na gravação ou esquema na leitura)

Gravado no momento da análise (esquema na leitura)

Preço/performance

Resultados de consulta mais rápidos, usando armazenamento local

Resultados da consulta cada vez mais rápidos usando armazenamento de baixo custo e desacoplamento de computação e armazenamento

Qualidade dos dados

Dados altamente organizados, que representam a versão central da verdade

Quaisquer dados, organizados ou não (ou seja, dados brutos)

Usuários

Analistas de negócios, cientistas de dados e desenvolvedores de dados

Analistas de negócios (usando dados organizados), cientistas de dados, desenvolvedores de dados, engenheiros de dados e arquitetos de dados

Análise

Geração de relatórios em lote, BI e visualizações

Machine learning, análise exploratória, descoberta de dados, fluxo, análise operacional, big data e criação de perfil

  Saiba mais sobre Data Warehouses Saiba mais sobre Data Lakes

Quando usar data lakes vs. data warehouses vs. data marts?

A maioria das organizações usa uma combinação de data lakes, warehouses e marts na infraestrutura de armazenamento. Normalmente, todos os dados são ingeridos em um data lake e depois carregados em diferentes warehouses e marts para diversos casos de uso. A decisão de tecnologia depende de vários fatores, como explicado abaixo. 

Flexibilidade

Em geral, data lakes oferecem mais flexibilidade com menor custo. Equipes diferentes podem acessar o mesmo dado usando a estrutura e as ferramentas de análise que preferem. Como não há a necessidade de estruturas, esquemas e transformações de dados, é possível economizar tempo.

Tipos de dado

Um data warehouse é melhor se você deseja armazenar dados relacionais, como dados do cliente e dos processos do negócio. Se houver um grande volume de dados relacionais, sua equipe pode considerar a criação de alguns data marts para necessidades específicas do negócio. Por exemplo, o departamento de contas pode criar um data mart para manter planilhas de balanço e preparar declarações de conta do cliente, enquanto o departamento de marketing pode criar outro data mart para otimizar campanhas de publicidade.

Custo e volume

Um data warehouse pode lidar de forma eficiente com centenas de petabytes (PB) de dados. Em comparação, data lakes oferecem menor custo para mais volume, especialmente para grande número de imagens e vídeos. No entanto, não é toda organização que precisa desse nível de escala. 

Como a AWS pode ajudar a satisfazer suas necessidades de armazenamento de dados?

A AWS fornece a mais ampla seleção de serviços analíticos, que se ajustam a todas as suas necessidades de análise de dados. Capacitamos indústrias e organizações de todos os tamanhos a reinventar seus negócios com dados. Confira alguns exemplos de como você pode usar a AWS:

  • Use Amazon Redshift para seus requisitos de data warehousing e data mart. Obtenha insights integrados executando análises preditivas e em tempo real em dados complexos e escalados em seus bancos de dados operacionais, data lake, data warehouse e milhares de conjuntos de dados de terceiros. Você pode criar, treinar e implantar automaticamente modelos de machine learning com facilidade.
  • Use AWS Lake Formation para criar, gerenciar e proteger um data lake em dias. Importe dados rapidamente de todas as suas fontes de dados e, em seguida, descreva-os e gerencie-os em um catálogo de dados centralizado.
  • Use o Amazon S3 para criar um data lake personalizado para análise de big data, inteligência artificial, machine learning, e aplicações de computador de alta performance.

Comece a usar o armazenamento de dados na AWS criando uma conta gratuita hoje mesmo.

Próximas etapas com a AWS

Saiba mais sobre os serviços de banco de dados
Comece a construir com data warehouses

Saiba como começar a usar data warehouses na AWS

Saiba mais 
Cadastre-se para obter uma conta gratuita
Comece a criar com data marts

Saiba como começar a usar data marts na AWS

Saiba mais 
Comece a criar no console
Comece a criar com data lakes

Saiba como começar a usar data lakes na AWS

Saiba mais