Publié le: Nov 18, 2019
L'environnement d'exécution EMR pour Apache Spark est désormais disponible. Optimisé, il est activé par défaut sur les clusters EMR Amazon et est jusqu'à 32 fois plus rapide. La compatibilité des API avec la solution Spark open source est également totale. L'environnement d'exécution est activé par défaut à partir de la version 5.28 d'EMR.
Pour estimer l'impact de ces améliorations, des requêtes TPC-DS ont été initiées avec des données se trouvant dans Amazon S3, avec une échelle de 3 To et un cluster EMR c4.8xlarge à 6 nœuds. Une moyenne géométrique a été établie pour déterminer la durée totale d'exécution de toutes les requêtes. Entre EMR 5.16 et EMR 5.28, cette même moyenne a été multipliée par 2,4 et la durée totale d'exécution des requêtes par 3,2. Pour obtenir des informations supplémentaires sur l'amélioration des performances et son incidence sur les requêtes à exécution courtes et longues, consultez notre article de blog Amazon EMR introduces EMR runtime for Apache Spark.