게시된 날짜: Apr 24, 2023
AWS Glue 크롤러는 Amazon S3에서 데이터 스키마와 파티션을 추출하고 AWS Glue 데이터 카탈로그를 채워 메타데이터를 최신 상태로 유지합니다. 이제 새로 발견된 테이블에 대한 파티션 인덱스를 자동으로 추가하도록 AWS Glue 크롤러 지원이 확장되었습니다. 따라서 Amazon Athena 및 AWS Glue와 같은 분석 서비스가 파티션 처리를 최적화하여 고도로 분할된 테이블의 쿼리 성능을 높일 수 있습니다.
주어진 테이블의 파티션 수는 시간이 지남에 따라 크게 증가할 수 있습니다. Amazon Athena와 같은 분석 서비스가 수백만 개의 파티션이 포함된 테이블을 쿼리하면 파티션을 검색하는 데 필요한 시간이 증가하고 이에 따라 쿼리 런타임이 증가할 수 있습니다. 이번 릴리스에서는 AWS Glue 크롤러가 새 AWS Glue 데이터 카탈로그 테이블을 생성할 때 기본적으로 파티션 인덱스도 생성하므로 수동으로 이를 생성할 필요가 없습니다. 그런 다음 AWS Glue 데이터 카탈로그가 파티션 인덱스 키를 기반으로 빠르고 검색 가능한 인덱스를 생성하므로 수백만 개의 파티션이 있는 테이블에서 파티션 메타데이터를 검색하고 필터링하는 데 필요한 시간이 줄어듭니다. 파티션 인덱스를 생성하면 Amazon Athena, Amazon EMR, Amazon Redshift Spectrum, AWS Glue.에서 실행되는 분석 워크로드에도 도움이 됩니다.
AWS Glue 크롤러의 파티션 인덱스 생성 지원은 AWS Glue가 제공되는 모든 상용 리전에서 정식 버전으로 사용할 수 있습니다. 자세한 내용은 AWS Glue 크롤러 설명서를 참조하세요.