Cos'è un data mart?

Un data mart è un sistema di archiviazione di dati che contiene informazioni specifiche per l'unità aziendale di un'organizzazione. Contiene una parte piccola e selezionata dei dati che l'azienda archivia in un sistema di archiviazione più grande. Le aziende utilizzano un data mart per analizzare le informazioni specifiche del reparto in modo più efficiente. Fornisce dati di riepilogo che le principali parti interessate possono utilizzare per prendere rapidamente decisioni informate. 

Ad esempio, un'azienda potrebbe archiviare dati provenienti da varie fonti, come informazioni sui fornitori, ordini, dati dei sensori, informazioni sui dipendenti e documenti finanziari nel proprio data warehouse o data lake. Tuttavia, l'azienda archivia le informazioni rilevanti, ad esempio, per il reparto marketing, come le recensioni dei social media e le registrazioni dei clienti, in un data mart.

In che modo un data mart è comparabile con altri tipi di sistemi di archiviazione di dati?

Le aziende utilizzano diversi tipi di sistemi di archiviazione di dati per la gestione e l'analisi dei dati. Diamo un'occhiata ad alcuni tipi comuni di archiviazione di dati per comprendere il contesto in cui le aziende utilizzano i data mart.

Database

Un database è un archivio organizzato che i sistemi informatici utilizzano per archiviare, cercare, recuperare e analizzare le informazioni. Esistono vari tipi di database, ad esempio i database relazionali. Un database relazionale archivia le informazioni in tabelle composte da righe e colonne. I dati in diverse tabelle sono collegati da un identificatore univoco noto come chiave. Le chiavi sono i valori non ripetitivi in colonne specifiche.

Confronto tra data mart e database

Un data mart funge da elemento frontale per i dati di un reparto.  È possibile utilizzare un data mart per recuperare e analizzare le informazioni. Nel frattempo, un database raccoglie, gestisce e archivia le informazioni. È quindi possibile utilizzare gli strumenti per elaborare, formattare e trasferire le informazioni archiviate in un data mart. 

Data warehouse  

Un data warehouse è un ampio sistema di database che archivia le informazioni per un'intera azienda. Raccoglie informazioni non elaborate da varie fonti, come software aziendale e feed di social media e le elabora in dati strutturati archiviati in un formato tabulare. Le aziende possono collegare un data warehouse aziendale agli strumenti di business intelligence per prendere decisioni più intelligenti. 

Confronto tra data mart e data warehouse

Un data mart condivide molte delle qualità di un data warehouse. La differenza è che un data warehouse contiene dati a livello aziendale su vari argomenti. Nel frattempo, un data mart archivia informazioni strettamente correlate a un argomento specifico. Ad esempio, un data warehouse potrebbe archiviare informazioni per i reparti marketing, risorse umane, approvvigionamento e assistenza clienti. Tuttavia, un data mart potrebbe archiviare solo dati transazionali rilevanti per un singolo reparto. Il fascino della creazione di un data mart è che i reparti che gestiscono i propri data mart hanno il controllo completo sul caricamento e la gestione dei propri dati. 

Molte organizzazioni utilizzano tecnologie come la condivisione dei dati per pubblicare i propri data mart in un data warehouse centrale.  In questo modo possono essere più agili distribuendo la proprietà e isolando i carichi di lavoro.  Allo stesso modo, la condivisione dei dati consente ai data mart dipartimentali di utilizzare i dati condivisi da un data warehouse o da altri data mart.

Data lake 

Un data lake è un tipo di archiviazione di dati che contiene informazioni non elaborate e non strutturate. Non archivia informazioni in file e cartelle. Al contrario, archivia le informazioni non elaborate in una gerarchia piatta su archivi di grandi dimensioni. I data lake archiviano diversi tipi di informazioni non elaborate, inclusi documenti di testo, immagini, video e audio. 

Gli analisti di dati utilizzano i data lake per condurre analisi predittive a partire da dati non strutturati. Ad esempio, un data lake potrebbe archiviare i testi delle recensioni dei social media che le aziende possono utilizzare per l'analisi del sentiment. Gli analisti di dati possono utilizzare l'analisi del sentiment per rilevare le tendenze delle opinioni negative per un'azienda. 

Confronto tra data mart e data lake

Poiché i data lake archiviano dati non elaborati, alcune informazioni potrebbero essere duplicate o potrebbero non essere significative per l'azienda. Nel frattempo, un data mart archivia i dati elaborati che soddisfano un'esigenza specifica. Un data lake potrebbe essere l'origine di un data mart. Le aziende determinano i trend dei dati esaminando i dati storici nei data mart, ma utilizzano i data lake per analizzare a fondo le informazioni archiviate. 

OLAP

L'elaborazione analitica online (OLAP) è un metodo per rappresentare i dati in più dimensioni. Ad esempio, gli analisti di dati utilizzano un cubo OLAP per mostrare simultaneamente i ricavi delle vendite in base a mesi, città e prodotti. Le strutture dati OLAP sono ampie, con campi classificati come fatti o dimensioni e determinano la duplicazione dei dati.  Ciò è in contrasto con i database relazionali convenzionali, che favoriscono strutture ristrette e poca duplicazione dei dati.

Confronto tra data mart e cubo OLAP

OLAP è una strategia di archiviazione delle informazioni specifica che denormalizza i dati in ampie tabelle. OLAP semplifica le rappresentazioni complesse di dati multidimensionali. Alcuni data mart potrebbero utilizzare OLAP per strutturare le proprie informazioni, mentre altri utilizzano strutture convenzionali e normalizzate. Gli analisti aziendali traggono vantaggio dalle strutture OLAP per visualizzare le informazioni provenienti da un data mart. 

Datastore operativo

Un datastore operativo (ODS) è un archivio di informazioni che funge da intermediario tra le origini dei dati e il data warehouse. Gli analisti di dati utilizzano l'ODS per fornire report quasi in tempo reale sui dati transazionali. L'ODS supporta query semplici e fornisce solo una quantità limitata di informazioni. Ad esempio, l'ODS potrebbe archiviare i record delle vendite solo nelle ultime 12 ore. 

Confronto tra data mart e ODS 

Un data mart estrae informazioni orientate al soggetto da un data warehouse, ma un ODS invia informazioni al data warehouse per l'elaborazione. I data mart offrono informazioni storiche che è possibile analizzare, ma un ODS fornisce una vista aggiornata delle operazioni correnti. Ad esempio, è possibile utilizzare un data mart per identificare i modelli di vendita per l'ultimo trimestre, ma ricevere aggiornamenti orari dei volumi di vendita dall'ODS. 

Perché un data mart è importante?

Questi sono alcuni buoni motivi per cui le aziende potrebbero utilizzare un data mart. 

Recuperare i dati in modo più efficace

Utilizzando un data mart, le aziende possono accedere a informazioni specifiche in modo più efficace. Rispetto a un data warehouse, un data mart contiene informazioni pertinenti e dettagliate a cui un reparto accede frequentemente. Pertanto, i responsabili aziendali non devono eseguire ricerche nell'intero data warehouse per generare report o grafici sulle prestazioni.

Semplificare il processo decisionale

Le aziende possono creare un sottoinsieme di dati da un data warehouse con un data mart. I dipendenti all'interno del reparto possono quindi analizzare i dati e prendere decisioni sulla base dello stesso insieme di informazioni. 

Controllare le informazioni in modo più efficace

Un data mart offre ai dipendenti privilegi di accesso altamente granulari. Ciò significa che l'azienda può autorizzare una determinata persona a visualizzare o recuperare dati specifici. Aiuta le aziende a migliorare la governance dei dati e ad applicare policy di accesso alle informazioni. Ad esempio, è possibile utilizzare i data mart per fornire l'accesso utente ai dipendenti per informazioni specifiche contenute in un data warehouse.

Gestire i dati in modo flessibile

Un data mart è più piccolo e contiene meno tabelle di un data warehouse. Ciò significa che i data engineer possono gestire e modificare le informazioni in un data mart senza apportare modifiche importanti al database.

Come funziona un data mart?

Un data mart trasforma le informazioni non elaborate in contenuti strutturati e significativi per un reparto aziendale specifico. Per fare ciò, i data engineer hanno creato un data mart per ricevere informazioni da un data warehouse o direttamente da origini dei dati esterne. 

Quando è connesso a un data warehouse, il data mart recupera una selezione di informazioni rilevanti per un'unità aziendale. Spesso, le informazioni contengono dati di riepilogo ed escludono dati non necessari o dettagliati. 

ESTRAZIONE, TRASFORMAZIONE E CARICAMENTO 

Estrazione, trasformazione e caricamento (ETL) è un processo per l'integrazione e il trasferimento di informazioni da varie origini dei dati in un unico database fisico. I data mart utilizzano ETL per recuperare informazioni da origini esterne quando non provengono da un data warehouse. Il processo prevede i seguenti passaggi.

  • Estrazione: raccolta di informazioni non elaborate da varie origini
  • Trasformazione: le informazioni vengono strutturate in un formato comune
  • Caricamento: trasferimento dei dati elaborati nel database

Gli strumenti ETL copiano le informazioni da origini esterne come fogli di calcolo, app e documenti di testo. Il data mart elabora, organizza e archivia le informazioni in una forma strutturata. 

Analisi dei dati

Gli analisti aziendali utilizzano strumenti software per recuperare, analizzare e rappresentare i dati dal data mart. Ad esempio, utilizzano le informazioni archiviate nei data mart per analisi di business intelligence, dashboard di reporting e applicazioni cloud. 

Ogni data mart serve un numero limitato di utenti. Ad esempio, il responsabile marketing e gli esperti di marketing senior hanno accesso a un data mart, quindi è necessario meno tempo per generare report e grafici o per eseguire analisi predittive.

Quali sono le tipologie di data mart?

Ecco i diversi tipi di data mart. 

Data mart dipendente 

Un data mart dipendente popola il proprio archivio con un sottoinsieme di informazioni provenienti da un data warehouse centralizzato. Il data warehouse raccoglie tutte le informazioni dalle origini dei dati. Quindi, il data mart interroga e recupera le informazioni specifiche del soggetto dal data warehouse. 

Pro e contro

La maggior parte dei lavori di gestione e amministrazione dei dati viene eseguita nel data warehouse. Ciò significa che gli analisti aziendali non devono essere altamente qualificati nella gestione dei database per utilizzare le informazioni del data mart. Sebbene i data mart dipendenti facilitino il recupero delle informazioni, presentano un singolo punto di errore. Se il data warehouse ha esito negativo, anche tutti i data mart connessi avranno esito negativo. 

Data mart indipendente

Un data mart indipendente non si affida a un data warehouse centrale o a qualsiasi altro data mart. Ogni data mart raccoglie informazioni dalle proprie origini anziché da un data warehouse. I data mart indipendenti sono adatti per le aziende più piccole, ma solo reparti specifici devono accedere e analizzare le informazioni.

Pro e contro

Le aziende possono creare data mart indipendenti con relativa facilità. Tuttavia, gestirli potrebbe essere difficile. Questo perché gli analisti aziendali devono eseguire il lavoro amministrativo del database in ogni data mart. È semplice condividere i dati tra diversi data mart utilizzando strategie come la condivisione dei dati; i reparti possono leggere i dati di un altro reparto e persino integrarli con i propri dati.  Tuttavia, è necessario mettere in atto una solida strategia di catalogazione dei dati per garantire che ogni reparto sappia cosa sta guardando. 

Data mart ibrido

I data mart ibridi raccolgono informazioni da un data warehouse e da origini esterne. Ciò consente alle aziende la flessibilità di testare origini dei dati indipendenti prima di indirizzare i dati al data warehouse. 

Ad esempio, supponiamo di lanciare un nuovo prodotto e di volerne analizzare i dati di vendita iniziali. Il data mart utilizza le informazioni di vendita che provengono direttamente dal software di e-commerce e recupera i record di vendita per altri prodotti dal data mart. Dopo che il prodotto diventa un elemento fisso nel tuo negozio, i dettagli della transazione vengono incanalati al data warehouse.

Quali sono le strutture di un data mart?

I data mart utilizzano queste strutture per archiviare e rappresentare le informazioni. 

Stella

La struttura a stella ha una tabella dei fatti al centro e si dirama in diverse tabelle dimensionali. Ciò si traduce in una connessione a forma di stella. La tabella dei fatti è una tabella di dati che contiene dati di riepilogo che è possibile utilizzare a fini analitici. Nel frattempo, le tabelle delle dimensioni contengono informazioni descrittive in una tabella dei fatti. Ogni tabella delle dimensioni si collega alla tabella dei fatti con una chiave esterna. Una chiave esterna è un identificativo univoco, ad esempio un ID del prodotto o un ID del fornitore. 

Ad esempio, una tabella dei fatti relativa alle transazioni di vendita contiene le seguenti colonne:

  • ID vendita
  • ID prodotto
  • ID fornitore
  • Importo vendite

Una tabella delle dimensioni relativa ai prodotti contiene le seguenti informazioni:

  • ID prodotto
  • Nome del prodotto
  • Costo del prodotto

La tabella delle dimensioni dei fornitori presenta le seguenti colonne:

  • ID fornitore
  • Nome del fornitore
  • Città

Vantaggi

In una struttura a stella, la tabella delle dimensioni viene denormalizzata per non estendersi in tabelle aggiuntive. Ciò significa che la tabella delle dimensioni potrebbe contenere dati ridondanti, ma la velocità di ricerca e recupero è maggiore. Inoltre, è richiesto meno spazio per archiviare le tabelle delle dimensioni.

Gli analisti aziendali possono utilizzare un data mart con struttura a stella per semplificare le query complesse. Quando cercano un record di vendita specifico, il sistema di gestione dei dati esegue una ricerca nella tabella dei fatti. Quando il sistema di data mart trova il record corretto, utilizza l'ID prodotto e l'ID fornitore per eseguire query sui dati dalle rispettive tabelle delle dimensioni. 

Denormalizzato

Una struttura denormalizzata archivia tutti i dati correlati in un'unica tabella. Non presenta giunzioni complesse tra tabelle dei fatti e tabelle delle dimensioni. Gli analisti di dati utilizzano un data mart denormalizzato perché migliora la velocità delle query. Ad esempio, la ricerca di un record di vendita viene eseguita in un'unica tabella denormalizzata come segue:

  • ID vendita
  • Prodotto 
  • Nome del prodotto
  • Costo del prodotto
  • Nome modello
  • Peso 
  • Dimensioni
  • Fornitore 
  • Nome del fornitore
  • Città
  • Importo vendite

Un data mart denormalizzato è adatto per la creazione di report in tempo reale grazie al suo approccio a tabella singola. Tuttavia, la denormalizzazione del data mart porta alla ridondanza dei dati. Ad esempio, lo stesso nome prodotto potrebbe apparire in più record. Ciò comporta spazio di archiviazione aggiuntivo ed elevati costi di implementazione.

Quali sono i passaggi per implementare un data mart? 

I data engineer del cloud configurano un data mart effettuando le seguenti operazioni:

  1. Lanciano la loro piattaforma dati nativa per il cloud.
  2. Inseriscono nel data mart i dati aziendali. Garantiscono che i dati abbiano il formato corretto e siano pertinenti per gli utenti aziendali.
  3. Configurano il data mart in modo che più utenti possano accedere ai dati in esso contenuti. Ad esempio, installano una dashboard di reporting nel data mart. 
  4. Continuano a monitorare, ottimizzare e risolvere i problemi durante l'esecuzione del data mart.

Come si può implementare un data mart su AWS?

Le aziende devono elaborare volumi di dati crescenti che estendano al limite l'archivio tradizionale dei data mart. I data mart installati sui server on-premise sono difficili da dimensionare. L'architettura cloud offre un'integrazione a livello aziendale più economica, più dimensionabile e più gestibile per i data mart.

Amazon Redshift è una soluzione di data warehousing che puoi utilizzare per implementare i data mart nel cloud. Puoi ottenere informazioni dettagliate integrate eseguendo analisi dei dati in tempo reale e predittive su dati complessi e dimensionati attraverso database operativi, data lake, data warehouse e migliaia di set di dati di terze parti. Puoi creare, addestrare e implementare automaticamente modelli di machine learning (ML) con facilità. Puoi creare data mart su Amazon Redshift e utilizzarli per prendere decisioni più intelligenti. 

Amazon Redshift ha alcune caratteristiche chiave che lo rendono un'ottima soluzione per il tuo data mart:

  • Con Amazon Redshift Serverless, le considerazioni relative alle dimensioni e alla scalabilità del cluster vengono gestite per tuo conto. 
  • Grazie alla condivisione nativa dei dati, i dati nel tuo data mart possono accedere ai dati nel tuo data warehouse o possono essere condivisi con il tuo data warehouse.

Inizia a utilizzare i data mart creando un account AWS oggi stesso.

Fasi successive del data mart in AWS

Scopri ulteriori risorse correlate al prodotto
Visualizza le offerte gratuite per i servizi Analytics nel cloud 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia a lavorare con la console

Inizia subito a sviluppare nella Console di gestione AWS.

Accedi