Publicado en: Dec 5, 2022
Amazon SageMaker Studio es un entorno de desarrollo completamente integrado (IDE) para el machine learning. Studio incluye la integración con Amazon EMR para que los científicos de datos puedan preparar datos de forma interactiva a escala de petabytes utilizando marcos como Apache Spark directamente desde los cuadernos de Studio. Nos complace anunciar que SageMaker Studio ahora admite la aplicación de control de acceso preciso a datos con AWS Lake Formation al acceder a ellos a través de Amazon EMR.
Hasta ahora, todos los trabajos que se ejecutaban en el clúster de EMR usaban el mismo rol de IAM para acceder a los datos: el perfil de instancia EC2 del clúster. Por lo tanto, para ejecutar los trabajos que necesitaban acceder a distintas fuentes de datos, p. ej., diferentes buckets de S3, había que configurar el perfil de instancia EC2 con políticas que permitían el acceso a la unión de todas esas fuentes de datos. Además, para habilitar grupos de usuarios con acceso diferencial a los datos, era necesario crear clústeres separados, uno por cada grupo, dando por resultado una sobrecarga operativa. Por otra parte, los trabajos enviados a EMR desde los cuadernos de Studio no podían aplicar un control de acceso a datos detallado con AWS LakeFormation.
A partir de hoy, cuando se conecte a los clústeres de EMR desde el cuaderno de SageMaker Studio, puede elegir el rol de IAM (llamado rol de tiempo de ejecución de IAM) al que se quiere conectar. Los trabajos de Apache Spark, Hive o Presto creados a partir de los cuadernos de Studio accederán únicamente a los datos y recursos permitidos por las políticas adjuntas a la función de tiempo de ejecución. Además, cuando se obtiene acceso a los datos desde lagos de datos administrados con AWS LakeFormation, puede imponer el acceso a nivel de tabla y columna mediante políticas adjuntas al rol de tiempo de ejecución. Con esta nueva capacidad, varios usuarios de SageMaker Studio pueden conectarse al mismo clúster EMR, cada uno utilizando un rol de ejecución con permisos personalizados de acceso a datos. Las sesiones de usuario están completamente aisladas entre sí en el clúster compartido. Con esta función, los clientes pueden simplificar el aprovisionamiento de clústeres de EMR, reduciendo así la sobrecarga operativa y ahorrando costos.
Esta función está disponible a nivel general en SageMaker Studio cuando se conecta a Amazon EMR 6.9 en las siguientes regiones de AWS: este de EE. UU (Ohio), este de EE. UU (Norte de Virginia), oeste de EE. UU (Oregón), Europa (París). Para obtener más información, consulte este blog.