Publié le: Feb 23, 2022
AWS Glue fournit désormais Job Run Insights, une fonction qui permet de réduire le temps de développement de tâches Apache Spark en aidant à déterminer les sources d'erreurs et les entraves de performances. AWS Glue est un service d'intégration de données qui permet aux clients de découvrir, de préparer et de combiner des données à des fins d'analytique avec Apache Spark et Python sans serveur. Le modèle de traitement distribué ainsi que d'« exécution paresseuse » de Spark rend difficiles et chronophages le diagnostic des erreurs et le réglage des performances pour les ingénieurs de données. Avec ce lancement, AWS Glue automatise l'analyse et l'interprétation des erreurs dans vos tâches Spark afin d'en accélérer l'exécution.
Job Run Insights simplifie l'analyse des causes racines des échecs d'exécution de tâches et aplanit la courbe d'apprentissage pour AWS Glue et Apache Spark. La fonction permet d'identifier le numéro de la ligne de votre code dans laquelle l'échec s'est produit et fournit des détails sur la tâche qu'effectuait le moteur AWS Glue au moment où l'erreur a eu lieu. Elle interprète aussi les erreurs pour vous, et fournit des recommandations sur la façon de régler vos tâches et votre code afin de résoudre les problèmes et d'améliorer les performances. Cette fonction accroît la quantité de journaux d'interface utilisateur Spark, ainsi que les journaux et métriques CloudWatch qu'AWS Glue générait auparavant.
Cette fonction est disponible dans les mêmes régions AWS qu'AWS Glue.
Pour en savoir plus, consultez notre documentation ou affichez une exécution de tâche dans le tableau de bord de surveillance des tâches d'AWS Glue Studio.