O que é um data mart?
Um data mart é um sistema de armazenamento de dados que contém informações específicas da unidade de negócios de uma organização. Ele contém uma parte pequena e selecionada dos dados que a empresa armazena em um sistema de armazenamento maior. As empresas usam um data mart para analisar informações específicas do departamento com mais eficiência. Ele fornece dados resumidos que as principais partes interessadas podem usar para tomar decisões informadas rapidamente.
Por exemplo, uma empresa pode armazenar dados de várias fontes, como informações de fornecedores, pedidos, dados de sensores, informações de funcionários e registros financeiros em seu data warehouse ou data lake. No entanto, a empresa armazena informações relevantes, por exemplo, para o departamento de marketing, como análises de mídias sociais e registros de clientes, em um data mart.
Como um data mart se compara a outros tipos de sistemas de armazenamento de dados?
As empresas usam vários tipos diferentes de sistemas de armazenamento de dados para gerenciamento e análise de dados. Vejamos alguns tipos comuns de armazenamento de dados para entender o contexto em que as empresas usam data marts.
Banco de dados
Um banco de dados é um armazenamento organizado que os sistemas de computador usam para armazenar, pesquisar, recuperar e analisar informações. Existem vários tipos de bancos de dados, como bancos de dados relacionais. Um banco de dados relacional armazena informações em tabelas que consistem em linhas e colunas. Os dados em tabelas diferentes são conectados por um identificador exclusivo conhecido como chave. As chaves são os valores não repetitivos em colunas específicas.
Data mart versus banco de dados
Um data mart serve como elemento de frente para os dados de um departamento. Você pode usar um data mart para recuperar e analisar informações. Enquanto isso, um banco de dados coleta, gerencia e armazena informações. Em seguida, você pode usar ferramentas para processar, formatar e transferir as informações armazenadas para um data mart.
Data warehouse
Um data warehouse é um extenso sistema de banco de dados que armazena informações de uma empresa inteira. Ele coleta informações brutas de várias fontes, como software comercial e feeds de mídia social, e as processa em dados estruturados armazenados em formato tabular. As empresas podem conectar um data warehouse corporativo a ferramentas de business intelligence para tomar decisões mais inteligentes.
Comparação entre data marts e data warehouses
Um data mart compartilha muitas das qualidades de um data warehouse. A diferença é que um data warehouse contém dados de toda a empresa sobre vários tópicos. Enquanto isso, um data mart armazena informações intimamente relacionadas a um assunto específico. Por exemplo, um data warehouse pode armazenar informações para os departamentos de marketing, recursos humanos, compras e suporte ao cliente. No entanto, um data mart pode armazenar apenas dados transacionais relevantes para um único departamento. O apelo da construção de um data mart é que os departamentos que gerenciam seus data marts tenham controle total sobre o carregamento e o gerenciamento de seus dados.
Muitas organizações estão usando tecnologias como compartilhamento de dados para publicar seus data marts em um data warehouse central. Ao fazer isso, eles podem ser mais ágeis distribuindo a propriedade e isolando as workloads. Da mesma forma, o compartilhamento de dados permite que os data marts departamentais consumam dados compartilhados de um data warehouse ou de outros data marts.
Data lake
Um data lake é o armazenamento de dados que contém informações brutas e não estruturadas. Ele não armazena informações em arquivos e pastas. Em vez disso, ele armazena informações não processadas em uma hierarquia plana em um armazenamento massivo. Os data lakes armazenam diferentes tipos de informações brutas, incluindo documentos de texto, imagens, vídeos e áudio.
Os analistas de dados usam data lakes para conduzir análises preditivas a partir de dados não estruturados. Por exemplo, um data lake pode armazenar textos de avaliações de mídias sociais que as empresas podem usar para análise de sentimentos. Os analistas de dados podem usar a análise de sentimento para detectar tendências de opinião negativas para uma empresa.
Data mart versus data lake
Como os data lakes armazenam dados não processados, algumas das informações podem ser duplicadas ou podem não ser significativas para a empresa. Enquanto isso, um data mart armazena dados processados que atendem a uma necessidade específica. Um data lake pode ser a fonte de um data mart. As empresas determinam tendências de dados analisando dados históricos em data marts, mas usam data lakes para analisar profundamente as informações armazenadas.
OLAP
O Online Analytical Processing (OLAP – Processamento analítico online) é um método para representar dados em várias dimensões. Por exemplo, os analistas de dados usam um cubo OLAP para mostrar simultaneamente a receita de vendas com base em meses, cidades e produtos. As estruturas de dados OLAP são amplas, com campos classificados como fatos ou dimensões e resultam em duplicação de dados. Isso contrasta com bancos de dados relacionais convencionais, que favorecem estruturas estreitas e pouca duplicação de dados.
Comparação entre data mart e cubo OLAP
O OLAP é uma estratégia específica de armazenamento de informações que desnormaliza os dados em tabelas amplas. O OLAP simplifica representações complexas de dados multidimensionais. Alguns data marts podem usar o OLAP para estruturar suas informações, mas outros usam estruturas convencionais e normalizadas. Os analistas de negócios se beneficiam das estruturas OLAP para visualizar informações de um data mart.
Armazenamento de dados operacional
Um armazenamento de dados operacional (ODS) é o armazenamento de informações que atua como intermediário entre as fontes de dados e o data warehouse. Os analistas de dados usam o ODS para fornecer relatórios quase em tempo real sobre dados transacionais. O ODS oferece suporte a consultas simples e fornece apenas uma quantidade limitada de informações. Por exemplo, o ODS pode armazenar registros de vendas somente nas últimas 12 horas.
Comparação entre data mart e ODS
Um data mart extrai informações orientadas ao assunto de um data warehouse, mas um ODS envia informações para o data warehouse para processamento. Os data marts oferecem informações históricas que você pode analisar, mas um ODS fornece uma visão atualizada das operações atuais. Por exemplo, você pode usar um data mart para identificar padrões de vendas do último trimestre, mas receber atualizações de números de vendas por hora do ODS.
Por que um data mart é importante?
Esses são alguns bons motivos pelos quais as empresas podem usar um data mart.
Recupere dados com mais eficiência
Ao usar um data mart, as empresas podem acessar informações específicas com mais eficiência. Comparado a um data warehouse, um data mart contém informações relevantes e detalhadas que um departamento acessa com frequência. Portanto, os gerentes de negócios não precisam pesquisar todo o data warehouse para gerar relatórios de performance ou gráficos.
Simplifique a tomada de decisões
As empresas podem criar um subconjunto de dados de um data warehouse com um data mart. Os funcionários do departamento podem então analisar os dados e tomar decisões com base no mesmo conjunto de informações.
Controle as informações com mais eficiência
Um data mart oferece aos funcionários privilégios de acesso altamente granulares. Isso significa que a empresa pode autorizar uma determinada pessoa a visualizar ou recuperar dados específicos. Ele auxilia as empresas a aprimorar a governança de dados e a aplicar políticas de acesso à informação. Por exemplo, você pode usar data marts para fornecer acesso do usuário aos funcionários para obter informações específicas em um data warehouse.
Gerencie os dados de forma flexível
Um data mart é menor e contém menos tabelas do que um data warehouse. Isso significa que os engenheiros de dados podem gerenciar e alterar informações em um data mart sem causar grandes alterações no banco de dados.
Como funciona um data mart?
Um data mart transforma informações brutas em conteúdo estruturado e significativo para um departamento de negócios específico. Para fazer isso, os engenheiros de dados configuram um data mart para receber informações de um data warehouse ou diretamente de fontes de dados externas.
Quando está conectado a um data warehouse, o data mart recupera uma seleção de informações relevantes para uma unidade de negócios. Muitas vezes, as informações contêm dados resumidos e excluem dados desnecessários ou detalhados.
ETL
A extração, transformação e carregamento (ETL) é um processo para integrar e transferir informações de várias fontes de dados em um único banco de dados físico. Os data marts usam ETL para recuperar informações de fontes externas quando elas não vêm de um data warehouse. O processo envolve as seguintes etapas.
- Extrair: coletar informações brutas de várias fontes
- Transformar: estruture as informações em um formato comum
- Carregar: transfira os dados processados para o banco de dados
As ferramentas de ETL copiam informações de fontes externas, como planilhas, aplicações e documentos de texto. Em seguida, o data mart processa, organiza e armazena as informações de forma estruturada.
Análises
Os analistas de negócios usam ferramentas de software para recuperar, analisar e representar dados do data mart. Por exemplo, eles usam as informações armazenadas em data marts para análises de business intelligence, painéis de relatórios e aplicações em nuvem.
Cada data mart atende a um pequeno número de usuários. Por exemplo, o gerente de marketing e os profissionais de marketing sênior têm acesso a um data mart, portanto, leva menos tempo para gerar relatórios e gráficos ou realizar análises preditivas.
Quais são os tipos de data marts?
Esses são os diferentes tipos de data marts.
Data mart dependente
Um data mart dependente preenche seu armazenamento com um subconjunto de informações de um data warehouse centralizado. O data warehouse reúne todas as informações das fontes de dados. Em seguida, o data mart consulta e recupera informações específicas do assunto do data warehouse.
Prós e contras
A maioria dos trabalhos de gerenciamento e administração de dados é realizada no data warehouse. Isso significa que os analistas de negócios não precisam ser altamente qualificados em gerenciamento de banco de dados para usar as informações do data mart. Embora os data marts dependentes facilitem muito a recuperação de informações, eles apresentam um único ponto de falha. Se o data warehouse falhar, todos os data marts conectados também falharão.
Data mart independente
Um data mart independente não depende de um data warehouse central ou de qualquer outro data mart. Cada data mart coleta informações de suas fontes em vez de um data warehouse. Os data marts independentes são adequados para empresas menores, mas apenas departamentos específicos precisam acessar e analisar informações.
Prós e contras
As empresas podem configurar data marts independentes com relativa facilidade. No entanto, gerenciá-los pode ser difícil. Isso ocorre porque os analistas de negócios precisam realizar um trabalho administrativo de banco de dados em cada data mart. É simples compartilhar dados entre diferentes data marts usando estratégias como compartilhamento de dados; os departamentos podem ler os dados de outro departamento e até aumentá-los com seus próprios dados. No entanto, uma forte estratégia de catalogação de dados deve ser implementada para garantir que cada departamento saiba o que está procurando.
Data mart híbrido
Os data marts híbridos coletam informações de um data warehouse e de fontes externas. Isso permite às empresas a flexibilidade de testar fontes de dados independentes antes de direcionar os dados para o data warehouse.
Por exemplo, suponha que você lance um novo produto e queira analisar seus dados iniciais de vendas. O data mart usa informações de vendas que vêm diretamente do software de comércio eletrônico e recupera registros de vendas de outros produtos do data mart. Depois que o produto se tornar um acessório permanente em sua loja, você canaliza os detalhes da transação para o data warehouse.
Quais são as estruturas de um data mart?
Os data marts usam essas estruturas para armazenar e representar informações.
Estrela
A estrutura da estrela tem uma tabela de fatos no centro e se ramifica para várias tabelas de dimensão. Isso resulta em uma conexão em forma de estrela. A tabela de fatos é uma tabela de dados que contém dados resumidos que você pode usar para fins analíticos. Enquanto isso, as tabelas de dimensão contêm informações descritivas em uma tabela de fatos. Cada tabela de dimensão é vinculada à tabela de fatos com uma chave estrangeira. Uma chave estrangeira é um identificador exclusivo, como um ID do produto ou ID do fornecedor.
Por exemplo, uma tabela de fatos para transações de vendas tem as seguintes colunas:
- ID de vendas
- ID do produto
- ID do fornecedor
- Valor das vendas
Uma tabela de dimensões para produtos armazena as seguintes informações:
- ID do produto
- Nome do produto
- Custo do produto
A tabela de dimensões do fornecedor tem as seguintes colunas:
- ID do fornecedor
- Nome do fornecedor
- Cidade
Benefícios
Em uma estrutura em estrela, a tabela de dimensão é desnormalizada para não se estender a tabelas adicionais. Isso significa que a tabela de dimensões pode conter dados redundantes, mas melhora a velocidade de pesquisa e recuperação. Também ocupa menos espaço para armazenar tabelas de dimensão.
Os analistas de negócios podem usar um data mart estruturado em estrelas para simplificar consultas complexas. Quando eles pesquisam um registro de vendas específico, o sistema de gerenciamento de dados pesquisa na tabela de fatos. Quando o sistema de data mart encontra o registro correto, ele usa o ID do produto e o ID do fornecedor para consultar dados das respectivas tabelas de dimensão.
Desnormalizado
Uma estrutura desnormalizada armazena todos os dados relacionados em uma única tabela. Ele não tem junções complexas entre tabelas de fatos e tabelas de dimensão. Os analistas de dados usam um data mart desnormalizado porque ele melhora a velocidade da consulta. Por exemplo, uma pesquisa por um registro de vendas ocorre em uma única tabela desnormalizada da seguinte forma:
- ID de vendas
- Produto
- Nome do produto
- Custo do produto
- Nome do modelo
- Peso
- Tamanho
- Fornecedor
- Nome do fornecedor
- Cidade
- Valor das vendas
Um data mart desnormalizado é adequado para relatórios em tempo real devido à sua abordagem de tabela única. No entanto, a desnormalização do data mart leva à redundância de dados. Por exemplo, o mesmo nome de produto pode aparecer em vários registros. Isso resulta em espaço de armazenamento adicional e custos de implementação dispendiosos.
Quais são as etapas na implementação de um data mart?
Os engenheiros de dados em nuvem configuram um data mart fazendo o seguinte:
- Iniciam suas plataformas de dados nativas de nuvem.
- Preenchem o data mart com dados comerciais. Confirmam que os dados têm o formato correto e são relevantes para os usuários corporativos.
- Configuram o data mart para que vários usuários possam acessar os dados contidos nele. Por exemplo, eles instalam um painel de relatórios no data mart.
- Continuam a monitorar, otimizar e resolver problemas quando o data mart está em execução.
Como você pode implementar um data mart na AWS?
As empresas precisam processar volumes de dados cada vez maiores que estendem o armazenamento convencional de data mart até o limite. Os data marts instalados em servidores on-premises são difíceis de dimensionar. A arquitetura de nuvem oferece uma integração de nível empresarial mais barata, mais escalável e mais gerenciável para data marts.
O Amazon Redshift é uma solução de data warehousing que você pode usar para implementar data marts na nuvem. Você pode obter insights integrados executando análises preditivas e em tempo real em dados complexos e escalados em seus bancos de dados operacionais, data lake, data warehouse e milhares de conjuntos de dados de terceiros. Você pode criar, treinar e implantar automaticamente modelos de machine learning (ML) com facilidade. Você pode criar data marts no Amazon Redshift e usá-los para tomar decisões mais inteligentes.
O Amazon Redshift tem alguns recursos importantes que o tornam uma ótima solução para o seu data mart:
- Com o Amazon Redshift Serverless, as considerações sobre o tamanho e a escala do cluster são tratadas para você.
- Devido ao compartilhamento de dados nativos, os dados em seu data mart podem acessar dados em seu data warehouse ou podem ser compartilhados com seu data warehouse.
Comece a usar data marts criando uma conta da AWS hoje mesmo.
Próximas etapa de data marts na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.