Publié le: Feb 2, 2022
Amazon SageMaker Data Wrangler réduit de plusieurs semaines à quelques minutes le temps nécessaire pour regrouper et préparer les données pour le machine learning (ML). SageMaker Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités. La solution permet également d'effectuer toutes les étapes du flux de préparation de données, notamment la sélection, le nettoyage, l'exploration et la visualisation des données, à partir d'une seule interface visuelle. Grâce à l'outil de sélection des données de SageMaker Data Wrangler, vous pouvez sélectionner rapidement des données à partir de plusieurs sources de données, comme Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store et Snowflake.
Aujourd'hui, nous annonçons la disponibilité générale de la prise en charge des formats de fichiers JSON, JSONL et ORC dans Data Wrangler. Vous pouvez désormais parcourir, prévisualiser et importer vos données dans ces formats de fichiers avec Data Wrangler. Le format de fichier ORC est un moyen très efficace de stocker les données Hive. Cependant, il peut être difficile de les prévisualiser à l'aide d'un éditeur de texte. Avec la prise en charge du format de fichier ORC dans Data Wrangler, vous pouvez désormais facilement parcourir les données dans un fichier ORC, exactement comme vous le feriez avec un fichier CSV. Pour en savoir plus sur l'importation de fichiers ORC et la préparation de données JSON avec Data Wrangler, consultez ceblog.
Par ailleurs, nous annonçons la disponibilité générale de plusieurs nouvelles transformations, notamment la transformation pour prendre en charge le déséquilibre de classes dans vos jeux de données, la transformation pour traiter les colonnes contenant des tableaux et les chaînes au format JSON, et la transformation d'encodage par similarité pour encoder efficacement les données catégorielles avec un niveau élevé de cardinalité. Ces transformations viennent s'ajouter à un ensemble de plus de 300 transformations de Data Wrangler, dont de nombreuses transformations dédiées au traitement des données en séries chronologiques. Vous trouverez ci-dessous une description détaillée de ces nouvelles transformations :
- Équilibrer les données. Les jeux de données peuvent fréquemment être déséquilibrés, donnant la priorité à une classe cible par rapport à une autre. La nouvelle transformation d'équilibrage peut vous aider à suréchantillonner une classe minoritaire d'analyse en fonction de vos exigences. Par ailleurs, vous pouvez désormais générer de nouveaux échantillons de la classe minoritaire à l'aide de la méthode SMOTE (Synthetic Minority Oversampling Technique), à présent disponible pour tous dans Data Wrangler. SMOTE génère automatiquement de nouvelles observations relatives à votre classe de minorité à partir de groupes de lignes similaires dans votre jeu de données. Pour en savoir plus sur la gestion des jeux de données déséquilibrés avec Data Wrangler, consultez le blog.
- Gérer les colonnes structurées. Pour les colonnes qui comportent des tableaux, la nouvelle transformation exploser le tableau permet de générer une nouvelle ligne pour chaque valeur contenue dans le tableau. Pour les chaînes au format JSON, une nouvelle transformation aplatir la colonne structurée permet de générer de nouvelles colonnes pour chaque paire clé-valeur de la chaîne au format JSON. Pour en savoir plus sur la gestion de colonnes structurées avec Data Wrangler, consultez le blog.
- Encoder les variables catégorielles. Avec la transformation d'encodage par similarité, vous pouvez désormais encoder efficacement les variables catégorielles avec un niveau de cardinalité élevé. Nombre de scientifiques des données appliquent fréquemment un encodage de type « one-hot » à leurs variables catégorielles, ce qui permet de convertir chaque valeur catégorielle en une colonne distincte. Le processus d'encodage de type « one-hot » peut convertir une colonne unique répertoriant les États américains en 50 nouvelles variables à valeurs binaires (à raison d'une variable par État). Avec la disponibilité dès à présent de l'encodage par similarité dans Data Wrangler, vous pouvez encoder une variable catégorielle en un nombre bien plus réduit de colonnes tout en préservant les performances des modèles ou en les augmentant éventuellement.
Pour finir, nous annonçons la disponibilité générale de l'expérience de « création de tâches » en un clic pour lancer les tâches de traitement de données. À compter d'aujourd'hui, vous pouvez cliquer sur le bouton « Créer une tâche », ce qui vous permet de démarrer une tâche de traitement des données à l'aide des étapes spécifiées dans votre flux Data Wrangler. Vous pouvez continuer d'utiliser les blocs-notes de traitement des données dans Data Wrangler pour lancer des tâches de traitement des données et intégrer Data Wrangler à vos pipelines MLOps. Pour en savoir plus sur le lancement d'une tâche de traitement des données avec Data Wrangler, consultez le blog.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, vous pouvez ouvrir Amazon SageMaker Studio après avoir effectué la mise à niveau vers la dernière version. Cliquez ensuite sur File > New > Flow (Fichier > Nouveau > Flux) dans le menu, ou sur « New data flow » (Nouveau flux de données) dans l'outil de lancement de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez la documentation.