Qu'est-ce que le nettoyage des données ?

Le nettoyage des données est un processus essentiel à la préparation des données brutes pour les applications de machine learning (ML) et d'informatique décisionnelle (BI). Les données brutes peuvent contenir plusieurs erreurs, risquant d'affecter l'exactitude des modèles de ML et de mener à des prédictions incorrectes et à un impact métier négatif. 

Les étapes clés du nettoyage des données comprennent la modification et la suppression des champs de données incorrects et incomplets, l'identification et la suppression des informations en double et des données non connexes, ainsi que la correction des erreurs de formatage, de valeurs manquantes et d'orthographe.

Pourquoi le nettoyage des données est-il important ?

Lorsqu'une entreprise utilise des données pour prendre des décisions, il est essentiel que celles-ci soient pertinentes, complètes et précises. Cependant, les jeux de données contiennent souvent des erreurs qui doivent être éliminées avant l'analyse. Elles peuvent inclure des erreurs de formatage telles que des dates, unités monétaires et autres unités de mesure mal écrites qui peuvent avoir un impact significatif sur les prédictions. Les valeurs aberrantes sont particulièrement préoccupantes, car elles faussent invariablement les résultats. Parmi les autres erreurs de données couramment rencontrées figurent les points de données corrompus, les informations manquantes et les erreurs typographiques. Des données propres peuvent contribuer à l'élaboration de modèles ML très précis. 

Des données propres et précises sont particulièrement cruciales pour entraîner les modèles ML, car l'utilisation de jeux de données d'entraînement médiocres peut conduire à des prédictions erronées dans les modèles déployés. C'est la principale raison pour laquelle les scientifiques des données passent une si grande partie de leur temps à préparer les données pour le ML.

Comment valider que vos données sont propres ?

Le processus de nettoyage des données comporte plusieurs étapes visant à identifier et à corriger les entrées problématiques. La première étape consiste à analyser les données pour identifier les erreurs. Cela peut impliquer l'utilisation d'outils d'analyse qualitative qui utilisent des règles, des modèles et des contraintes pour identifier les valeurs non valides. L'étape suivante consiste à supprimer ou à corriger les erreurs. 

Les étapes courantes de nettoyage des données comprennent la remédiation :

  • Données en double : suppression des informations en double
  • Données non pertinentes : identification des champs critiques pour une analyse particulière et élimination des données non pertinentes de l'analyse
  • Valeurs aberrantes : elles peuvent affecter considérablement les performances du modèle, il convient donc de les identifier et de déterminer les mesures à prendre
  • Données manquantes : marquage et suppression ou imputation des données manquantes
  • Erreurs structurelles : correction des erreurs typographiques et d'autres incohérences, et mise en conformité des données avec un modèle ou une convention commune

Comment AWS peut aider au nettoyage des données

Amazon SageMaker Data Wrangler est une fonctionnalité d'Amazon SageMaker qui vous permet de préparer rapidement et facilement les données pour le ML. Amazon SageMaker Data Wrangler vous permet d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration, la détection des biais et la visualisation des données depuis une seule interface visuelle.

En utilisant l'outil de sélection de données de SageMaker Data Wrangler, vous pouvez choisir les données que vous voulez dans différentes sources de données et les importer en un seul clic. Une fois les données importées, vous pouvez utiliser le rapport sur la qualité et les informations de données pour automatiquement vérifier la qualité des données et détecter les anomalies, par exemple les lignes dupliquées et les fuites de cibles. SageMaker Data Wrangler comprend plus de 300 transformations de données intégrées, de sorte que vous puissiez normaliser, transformer et combiner rapidement des fonctions sans avoir à écrire de code.

Pour démarrer avec SageMaker Data Wrangler, explorez le didacticiel.

Prochaines étapes du nettoyage des données

Consulter les ressources supplémentaires relatives au produit
En savoir plus sur les services d’apprentissage automatique 
Créer un compte gratuit

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter