Publié le: Mar 30, 2021
Lorsque vous créez des ensembles de données dans AWS Glue DataBrew à partir du lac de données Amazon S3, vous pouvez désormais créer des ensembles de données dynamiques pour planifier la préparation des données sur les nouveaux fichiers Amazon S3 entrants, ou appliquer des transformations sur des fichiers ou dossiers filtrés ou sélectionnés de manière conditionnelle dans S3. Vous pouvez créer un chemin S3 dynamique pour choisir les fichiers en fonction d'une fenêtre temporelle ou de l'heure de leur dernière mise à jour, et définir des paramètres personnalisés pour remplacer les valeurs basées sur une chaîne, un nombre ou une date dans votre chemin de fichier S3 par des conditions de filtre telles que commence par, se termine par, contient, ne contient pas, moins que, plus grand que, avant et autres. Les noms de paramètres personnalisés peuvent être inclus sous forme de colonnes dans vos ensembles de données, et le schéma révisé sera utilisé pour les travaux exécutés sur les ensembles de données dynamiques. Les fichiers et/ou chemins S3 paramétrés permettent aux utilisateurs de planifier l'application de recettes existantes sur les ensembles de données dynamiques sélectionnés.
DataBrew est un outil visuel de préparation des données qui permet de nettoyer et de normaliser facilement les données à l'aide de plus de 250 transformations prédéfinies pour la préparation des données, sans qu'il soit nécessaire d'écrire le moindre code.
Pour en savoir plus, regardez cette vidéo de mise en route ou utilisez un exemple d'ensemble de données pour explorer DataBrew. Pour commencer, consultez la Console de gestion AWS ou installez le module d'extension DataBrew dans votre environnement de bloc-notes et reportez-vous à la documentation de DataBrew.