Publié le: May 6, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de quelques semaines à quelques minutes dans Amazon SageMaker Studio, le premier environnement de développement entièrement intégré (IDE) pour le ML. SageMaker Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais également d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. SageMaker Data Wrangler fonctionne par défaut sur ml.m5.4xlarge. SageMaker Data Wrangler comprend des transformations de données et des analyses intégrées écrites en PySpark pour vous permettre de traiter efficacement de grands jeux de données (jusqu'à des centaines de gigaoctets (Go) de données) sur l'instance par défaut.
À partir d'aujourd'hui, vous pouvez utiliser des types d'instance M5 ou R5 supplémentaires avec plus de CPU ou de mémoire dans SageMaker Data Wrangler pour améliorer les performances de vos charges de travail de préparation des données. Les instances Amazon EC2 M5 offrent un équilibre entre le calcul, la mémoire et les ressources de réseaux pour un large éventail de charges de travail. Les instances Amazon EC2 R5 sont les instances à mémoire optimisée. Les types d'instance M5 et R5 sont bien adaptés aux applications gourmandes en mémoire et en CPU, comme l'exécution de transformations intégrées pour de très grands jeux de données (jusqu'à des téraoctets (To) de données) ou la mise en œuvre de transformations personnalisées écrites dans Panda sur des jeux de données de taille moyenne (jusqu'à des dizaines de Go).
Pour en savoir plus sur les nouvelles instances prises en charge par Amazon SageMaker Data Wrangler, reportez-vous au blog ou au document AWS, ainsi qu'à la page de tarification. Pour commencer à utiliser SageMaker Data Wrangler, lisez la documentation AWS.