게시된 날짜: Nov 29, 2022
Amazon EMR의 Amazon Redshift와 Apache Spark 통합 기능이 발표되었습니다. 데이터 엔지니어는 이 통합 기능을 사용하여 Amazon Redshift 클러스터에서 데이터를 사용하고 쓸 수 있는 Spark 애플리케이션을 구축 및 실행할 수 있습니다. Amazon EMR 6.9 버전부터는 EMR의 3개 배포 모델(EC2, EKS, Serverless)에서 모두 이 통합 기능을 사용할 수 있습니다.
이 통합 기능을 사용하면 ELT 워크플로의 일부분으로 Redshift 테이블에 데이터를 직접 쓰는 애플리케이션을 구축하거나 Redshift의 데이터를 다른 소스의 데이터와 결합할 수 있습니다. 개발자는 Redshift 테이블의 데이터를 Spark 데이터 프레임에 로드하거나 Redshift 테이블에 데이터를 쓸 수 있습니다. 그러므로 Redshift에 연결하기 위해 오픈 소스 커넥터를 다운로드하지 않아도 됩니다.
Apache Spark용 Amazon Redshift 통합 기능 사용 시에는 기존 Redshift-Spark 커넥터를 사용하는 경우에 비해 Redshift 데이터에 액세스하는 Amazon EMR의 애플리케이션 실행 속도를 10배까지 높일 수 있습니다. 그리고 조인, 집계, 정렬, 스칼라 함수 등의 관계형 작업을 Spark에서 Redshift로 푸시다운하여 쿼리 성능을 높일 수 있습니다. 이 통합 기능은 IAM 기반 역할을 지원하므로 Single Sign-On 기능을 사용할 수 있으며, 안전한 키 관리를 위해 AWS Secrets Manager와도 통합할 수 있습니다.
Apache Spark용 Amazon Redshift 통합 기능은 Amazon EMR, Amazon EMR on EKS 및 Amazon Serverless가 제공되는 모든 리전에서 사용 가능합니다. 이 기능 사용을 시작하려면 Amazon EMR, Amazon EMR on EKS 및 Amazon EMR Serverless 설명서를 참조하세요.