게시된 날짜: Aug 8, 2023
Amazon EMR Studio는 데이터 과학자와 데이터 엔지니어가 PySpark, Python, Scala, R. EMR Studio로 작성된 빅 데이터 및 분석 애플리케이션을 손쉽게 개발, 시각화, 디버깅할 수 있도록 지원하는 통합 개발 환경(IDE)으로, 완전관리형 Jupyterlab Notebook과 더불어 Spark UI 및 YARN Timeline Service 같은 도구를 제공하여 디버깅을 간소화합니다. 오늘부터 EMR Studio 워크스페이스는 EMR on EC2 클러스터를 통해 데이터에 액세스하는 경우 AWS Lake Formation의 세분화된 데이터 액세스 제어 기능을 적용하도록 지원합니다.
이제 EMR Studio 워크스페이스에서 EMR 클러스터에 연결할 때, 연결하려는 IAM 역할 (런타임 IAM 역할이라고 함)을 선택할 수 있습니다. Apache Spark 대화형 노트북은 이 런타임 역할에 연결된 정책에서 허용하는 데이터와 리소스에만 액세스합니다. AWS Lake Formation에서 관리하는 데이터 레이크에서 데이터에 액세스할 경우, 런타임 역할에 연결된 정책을 사용하여 테이블 및 열 수준 액세스를 적용할 수 있습니다. 이 새로운 기능을 사용하면 여러 사용자가 자신의 EMR Studio 워크스페이스에서 동일한 EMR 클러스터에 연결할 수 있는데, 이때 각 사용자는 맞춤형 데이터 액세스 권한으로 범위가 지정된 런타임 역할을 사용합니다. 사용자 세션은 공유 클러스터에서 서로 완전히 격리됩니다. 따라서 대화형 사용 사례의 경우 EMR 클러스터의 프로비저닝을 간소화하여 운영 오버헤드를 줄이고 비용을 절감할 수 있습니다.