Publié le: Aug 8, 2023
Amazon EMR Studio est un environnement de développement intégré (IDE) qui permet aux data scientists et aux ingénieurs de données de développer, de visualiser et de déboguer facilement des applications de big data et d'analyse écrites dans PySpark, Python, Scala et R. EMR Studio fournit des blocs-notes Jupyterlab entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Nous sommes heureux d'annoncer aujourd'hui que les espaces de travail EMR Studio prennent désormais en charge l'application du contrôle précis des accès aux données avec AWS Lake Formation en cas d'accès aux données via des clusters EMR sur EC2.
Lorsque vous vous connectez à des clusters EMR depuis des espaces de travail EMR Studio, vous pouvez désormais choisir le rôle IAM (appelé rôle IAM d'exécution) auquel vous souhaitez vous connecter. Les blocs-notes interactifs Apache Spark accéderont uniquement aux données et aux ressources autorisées par les politiques associées au rôle d'exécution. Lorsque l'accès aux données se fait depuis des lacs de données gérés avec AWS Lake Formation, vous pouvez appliquer un accès au niveau des colonnes et des tableaux à l'aide de politiques associées à ce rôle d'exécution. Grâce à cette nouvelle fonctionnalité, plusieurs utilisateurs peuvent se connecter au même cluster EMR depuis leurs espaces de travail EMR Studio, chacun utilisant un rôle d'exécution limité en fonction d'autorisations d'accès aux données personnalisées. Les sessions utilisateurs sont complètement isolées les unes des autres sur le cluster partagé. Cela peut également simplifier le provisionnement de clusters EMR pour des cas d'utilisation interactifs, réduisant ainsi les frais opérationnels et les coûts.
Cette fonctionnalité est généralement disponible lors de la connexion à Amazon EMR sur des clusters EC2 dans les versions 6.11+ dans toutes les régions où EMR Studio est pris en charge. Pour en savoir plus, consultez la documentation relative à EMR.