Quelle est la différence entre un entrepôt des données, un lac de données et un data mart ?


Quelle est la différence entre un entrepôt de données, un lac de données et un data mart ?

Les entrepôts de données, les lacs de données et les data marts sont des solutions différentes de stockage dans le cloud. Un entrepôt des données stockent les données dans un format structuré. Il s'agit d'un dépôt central de données prétraitées pour l'analyse et l'informatique décisionnelle. Un data mart est un entrepôt de données qui répond aux besoins d'une unité opérationnelle spécifique, comme le département des finances, du marketing ou des ventes d'une entreprise. D'autre part, un lac de données est un dépôt central pour les données brutes et les données non structurées. Vous pouvez d'abord stocker les données et les traiter par la suite.

Similitudes entre les entrepôts de données, les data marts et les lacs de données

Les organisations ont aujourd'hui accès à des volumes de données toujours plus importants. Cependant, ils doivent trier, traiter, filtrer et analyser les données brutes pour en tirer des bénéfices concrets. Dans le même temps, ils doivent également suivre des pratiques rigides en matière de protection et de sécurité des données pour se conformer à la réglementation. Par exemple, voici les pratiques que les organisations doivent suivre :

  • Collecter des données provenant de différentes sources comme les applications, les fournisseurs, les capteurs de l'Internet des objets (IoT) et d'autres tierces parties.
  • Traiter les données dans un format cohérent, fiable et utilisable. Par exemple, les organisations pourraient traiter les données pour s'assurer que toutes les dates du système sont dans un format commun ou résumer les rapports quotidiens.
  • Préparez les données en formatant des fichiers XML pour les logiciels de machine learning ou en générant des rapports pour les humains.

Les organisations utilisent divers outils et solutions pour atteindre leurs objectifs en matière d'analytique des données. Les entrepôts de données, les data marts et les lacs de données sont autant de solutions qui aident à stocker les données.

Découvrez-en plus sur XML »

Avantages d'un entrepôt de données, d'un lac de données et d'un data mart basés sur le cloud

Ces trois solutions de stockage vous aident à accroître la disponibilité, la fiabilité et la sécurité de vos données. Voici des exemples d'utilisation :

  • Stocker vos données d'entreprise en toute sécurité pour l'analytique
  • Stocker un volume illimité de données aussi longtemps que vous en avez besoin
  • Éliminer les silos grâce à l'intégration des données provenant de plusieurs processus d'entreprise
  • Analyser les données historiques ou les bases de données héritées
  • Effectuer des analyses de données en temps réel et par lots

En outre, ces trois solutions sont rentables : vous ne payez que l'espace de stockage que vous utilisez. Vous pouvez stocker toutes vos données, les analyser pour détecter des modèles et des tendances, et utiliser ces informations pour optimiser vos opérations métier.

Principales différences : entrepôts des données vs data marts

Un entrepôt des données est une base de données relationnelle qui stocke des données provenant de systèmes transactionnels et d'applications de fonctions d'entreprise. Toutes les données de l'entrepôt sont structurées ou prémodélisées en tables. La structure et le schéma des données sont conçus pour optimiser les requêtes SQL rapides. Un data mart est un terme marketing différent pour la même technologie. Il s'agit également d'une base de données relationnelle, mais son utilisation pratique diffère grandement de celle d'un entrepôt de données. Les principaux points de différence sont présentés ci-dessous.

Découvrez-en plus sur SQL »

Sources de données

Les entrepôts de données ont des sources multiples, tant internes qu'externes. Vous pouvez extraire des données de n'importe où, les transformer dans un format structuré et les charger dans votre entrepôt. Les data marts ont moins de sources de données et ont tendance à être de plus petite taille.

Concentration

Les entrepôts de données stockent généralement des données provenant de plusieurs unités opérationnelles. Ils intègrent de manière centralisée les données de toute l'organisation en vue d'une analytique complète. Les data marts se concentrent sur un seul sujet et sont plus décentralisés par nature. Ils filtrent et résument souvent les informations provenant d'un autre entrepôt de données existant.

Utilisation

De multiples utilisateurs et projets ont besoin des données stockées dans les entrepôts de données. Par conséquent, les entrepôts ont souvent une durée de vie plus longue et sont plus complexes par nature. Les data marts, quant à eux, peuvent être axés sur un projet et avoir une utilisation limitée. Les équipes préfèrent créer des data marts à partir de l'entrepôt de données de l'entreprise et y mettre fin une fois le cas d'utilisation terminé.

Approche de la conception

Les scientifiques des données utilisent une approche de haut en bas lors de la conception d'un entrepôt de données. Ils planifient d'abord l'architecture globale et résolvent les problèmes au fur et à mesure qu'ils se présentent. Cependant, avec un data mart, les ingénieurs de données connaissent déjà des détails comme les valeurs, les types de données et les sources de données externes. Ils peuvent planifier l'implémentation dès le début et adopter une approche ascendante de la conception du data mart.

 

Caractéristiques Entrepôt de données Datamart
Étendue

Centralisé, plusieurs domaines thématiques intégrés ensemble

Décentralisé, domaine spécifique

Utilisateurs

Organisation

Une seule communauté ou un seul département

Source de données

Plusieurs sources

Une seule ou quelques sources, ou une partie des données déjà collectées dans un entrepôt de données

Taille

Grand, peut mesurer de 100 de gigaoctets à 100 pétaoctets

Petit, généralement jusqu'à 10 gigaoctets

Conception

De haut en bas

De bas en haut

Détails des données

Données complètes et détaillées

Peut contenir des données résumées

 

En savoir plus sur les entrepôts de données

En savoir plus sur les data marts

Principales différences : entrepôts des données vs lacs de données

Un entrepôt de données et un lac de données sont deux technologies apparentées, mais fondamentalement différentes. Alors que les entrepôts de données stockent des données structurées, un lac est un référentiel centralisé qui vous permet de stocker n'importe quelles données à n'importe quelle échelle. Un lac de données offre plus d'options de stockage, est plus complexe et présente des cas d'utilisation différents par rapport à un entrepôt de données. Les principaux points de différence sont présentés ci-dessous.

Sources de données

Tant les lacs de données que les entrepôts peuvent avoir des sources de données illimitées. Cependant, l'entreposage de données exige que vous conceviez votre schéma avant de pouvoir enregistrer les données. Vous ne pouvez charger que des données structurées dans le système. À l'inverse, les lacs de données n'ont pas de telles exigences. Ils peuvent stocker des données non structurées et semi-structurées, telles que les journaux de serveurs web, les flux de clics, les médias sociaux et les données de capteurs.

Prétraitement

Un entrepôt de données nécessite généralement un prétraitement avant le stockage. Les outils d'extraction, transformation et chargement (ETL) sont utilisés pour nettoyer, filtrer et structurer les ensembles de données au préalable. En revanche, les lacs de données contiennent toutes les données. Vous avez la possibilité de choisir si vous souhaitez effectuer un prétraitement ou non. Les organisations utilisent généralement des outils d'extraction, chargement et transformation (ELT). Ils chargent d'abord les données dans le lac et ne les transforment qu'en cas de besoin.

Qualité des données

Un entrepôt de données a tendance à être plus fiable, car vous pouvez effectuer des traitements à l'avance. Plusieurs fonctions comme la déduplication, le tri, la compression et la vérification peuvent être effectués en amont pour garantir l'exactitude des données. Des doublons ou des données erronées et non vérifiées peuvent se retrouver dans un lac de données si aucune vérification n'est effectuée à l'avance.

Performance

Un entrepôt de données est conçu pour obtenir les performances de requête les plus rapides. Les utilisateurs professionnels préfèrent les entrepôts de données afin de pouvoir générer des rapports plus efficacement. En revanche, l'architecture des lacs de données donne la priorité au volume et au coût du stockage plutôt qu'aux performances. Vous obtenez un volume de stockage beaucoup plus important à un coût moindre, et vous pouvez toujours accéder aux données à des vitesses raisonnables.

 

Caractéristiques Entrepôt de données Lac de données
Données

Données relationnelles provenant de systèmes transactionnels, de bases de données opérationnelles et d'applications métier

Toutes les données, structurées, semi-structurées comme non structurées

Schéma

Souvent conçu préalablement au déploiement de l'entrepôt de données, mais pouvant être également écrit au moment de l'analyse

(schéma sur écriture ou schéma sur lecture)

Conçu au moment de l'analyse (schéma sur lecture)

Prix/performance

Résultats de recherches les plus rapides via un système de stockage local

Résultats de recherches de plus en plus rapides via un système de stockage peu coûteux et découplés du calcul et du stockage

Qualité des données

Données hautement organisées servant de véritable dictionnaire

Toutes les données qui peuvent ou ne peuvent être conservées (c'est-à-dire les données brutes)

Utilisateurs

Les analystes d'affaires, les data scientists et les développeurs de base de données

Les analystes d'affaires (utilisant des données conservées), les scientifiques des données, les développeurs de base de données, les ingénieurs de données et les architectes de données

Analyse

Rapport de production par lot, BI et visualisation

Machine learning, analyse exploratoire, découverte de données, streaming, analyse opérationnelle, big data et profilage

  En savoir plus sur les entrepôts de données En savoir plus sur les lacs de données

Quand utiliser des lacs de données, des entrepôts des données ou des data marts ?

La plupart des grandes entreprises utilisent une combinaison de lacs de données, d'entrepôts et de data mart dans leur infrastructure de stockage. En général, toutes les données sont ingérées dans un lac de données puis chargées dans différents entrepôts et marts pour des cas d'utilisation variés. La décision technologique dépend de divers facteurs, expliqués ci-dessous. 

Flexibilité

En général, les lacs de données offrent plus de flexibilité à un coût moindre. Différentes équipes peuvent accéder aux mêmes données en utilisant les outils et cadres analytiques de leur choix. Vous pouvez gagner du temps, car il n'est pas nécessaire de définir des structures de données, des schémas et des transformations.

Types de données

Un entrepôt de données est préférable si vous souhaitez stocker des données relationnelles comme les données relatives aux clients et aux processus métier. Si vous disposez d'un grand volume de données relationnelles, votre équipe peut envisager de créer quelques data marts pour des besoins métier spécifiques. Par exemple, le service comptabilité peut créer un data mart pour tenir à jour les bilans et préparer les instructions sur les comptes clients, tandis que le service marketing peut créer un autre data mart pour optimiser les campagnes publicitaires.

Coûts et volume

Un entrepôt de données peut traiter efficacement des centaines de pétaoctets (Po) de données. Les lacs de données offrent un coût comparativement plus faible pour un volume plus important, notamment pour un grand nombre d'images et de vidéos. Cependant, toutes les organisations n'ont pas forcément besoin de ce niveau de mesure. 

Quelle est l'utilité d'AWS en matière de stockage de données ?

AWS offre la plus vaste sélection de services analytiques qui répondent à tous vos besoins en analytique de données. Nous permettons aux industries et aux organisations de toutes tailles de réinventer leurs activités grâce aux données. Voici des exemples d'utilisation d'AWS :

  • Utilisez Amazon Redshift pour vos besoins en matière d'entreposage de données et de data mart. Obtenez des informations intégrées en exécutant des analytiques prédictives et en temps réel sur des données complexes et mises à l'échelle sur l'ensemble de vos bases de données opérationnelles, votre lac de données, votre entrepôt de données et des milliers de jeux de données de tierces parties. Vous pouvez créer, entraîner et déployer automatiquement des modèles de machine learning en toute simplicité.
  • Utilisez AWS Lake Formation pour créer, gérer et sécuriser un lac de données en quelques jours. Importez rapidement les données de toutes vos sources de données, puis décrivez-les et gérez-les dans un catalogue de données centralisé.
  • Utilisez Amazon S3 pour créer un lac de données personnalisé pour des applications d'analytique big data, d'intelligence artificielle, de machine learning et de calcul haute performance.

Démarrez avec le stockage de données sur AWS en créant un compte gratuit dès aujourd'hui.

Prochaines étapes avec AWS

En savoir plus sur les services de base de données
Commencer à créer avec des entrepôts de données

Découvrir comment démarrer avec les entrepôts de données sur AWS

En savoir plus 
Créer un compte gratuit
Commencer à créer avec des data marts

Découvrir comment démarrer avec les data marts sur AWS

En savoir plus 
Commencer à créer dans la console
Commencer à créer avec des lacs de données

Découvrir comment démarrer avec les lacs de données sur AWS

En savoir plus