게시된 날짜: Nov 17, 2023
이제 AWS Glue 데이터 카탈로그는 AWS Glue 테이블에 대한 열 수준 통계 생성을 지원합니다. 이제 이러한 통계를 Amazon Athena 및 Amazon Redshift Spectrum의 비용 기반 최적화 프로그램(CBO)과 통합하여 쿼리 성능을 개선하고 잠재적으로 더 많은 비용을 절감할 수 있습니다.
이제 고객은 이번 출시를 통해 Glue 테이블의 통계를 수집하여 Glue 카탈로그에 저장하고 분석 서비스에 제공하여 쿼리 계획 및 실행을 개선하는 통합 환경을 갖추게 되었습니다. 이러한 통계는 Parquet, ORC, JSON, ION, CSV, XML과 같은 파일에 대한 고유 개수, null 개수, 최대 및 최소 개수 같은 열 수준 통계입니다. Amazon Athena 및 Amazon Redshift와 같은 분석 서비스는 통계를 통해 쿼리 처리 초기에 가장 제한적인 필터를 적용하여 쿼리를 최적화할 수 있으므로 쿼리 결과를 제공하기 위해 읽는 레코드 수와 메모리 사용량을 제한할 수 있습니다.
사용자가 이 기능을 시작하려면 AWS Glue 콘솔 또는 AWS Glue API를 사용하여 AWS Glue 카탈로그 테이블에 대한 통계를 생성하고 통계를 볼 수 있습니다. 고객이 Amazon Athena 및 Amazon Redshift Spectrum에서 쿼리를 실행하면 AWS Glue 카탈로그와의 내장된 통합을 통해 쿼리 성능이 자동으로 개선됩니다.