게시된 날짜: Jul 21, 2023
이제 AWS Glue 크롤러에서 Apache Hudi 테이블을 지원하므로 고객은 Amazon Athena와 같은 AWS 분석 서비스에서 직접 Apache Hudi 테이블의 데이터를 쿼리할 수 있습니다. Apache Hudi는 데이터베이스 및 데이터 웨어하우스 기능을 데이터 레이크에 제공하는 오픈 소스 테이블 형식입니다. Apache Hudi는 데이터 엔지니어가 쿼리 성능을 유지하면서 지속적으로 진화하는 데이터 세트를 관리할 수 있도록 지원합니다.
지금까지는 Amazon Athena 사용자가 Apache Hudi 테이블에서 데이터를 쿼리하려면 Glue 데이터 카탈로그 내에 수동으로 테이블을 생성하고 파티션 변경을 업데이트하여 쿼리 결과가 최신 상태로 유지되도록 해야 했습니다. 오늘 출시 덕분에 사용자는 Glue 크롤러를 실행하여 Apache Hudi 테이블을 Glue 카탈로그에 자동으로 등록할 수 있게 되었습니다. Glue 크롤러는 분할 및 비분할 CoW(기록 중 복사) 및 MoR(읽기 중 병합) Hudi 테이블을 지원합니다. 그러면 사용자는 다양한 분석 서비스에서 Glue 카탈로그 Hudi 테이블을 쿼리하고 Lake Formation에 세분화된 권한을 적용할 수 있습니다. Glue 크롤러를 사용하면 다른 Hudi 카탈로그에서 Glue 카탈로그로 데이터를 마이그레이션할 수도 있습니다.
시작하려면 Glue 크롤러를 생성, 실행 또는 예약하며 Hudi 테이블에 대한 하나 이상의 Amazon S3 경로를 제공해야 합니다. 실행할 때마다 Glue 크롤러는 스키마, 파티션 정보를 추출하고 스키마, 파티션 변경 사항 및 최신 Hudi 메타데이터 파일 위치로 Glue 카탈로그를 업데이트합니다.
Hudi 테이블에 대한 AWS Glue 크롤러의 지원은 AWS Glue가 제공되는 모든 상업 리전에서 사용할 수 있습니다. 자세한 내용은 AWS 리전 테이블을 참조하세요. 자세히 알아보려면 AWS Glue 크롤러 설명서를 살펴보세요.