게시된 날짜: Dec 19, 2022
AWS Glue 크롤러는 이제 Linux Foundation Delta Lake 테이블에 대한 지원을 강화하여 운영 효율성을 높임으로써 Amazon Athena, Amazon EMR 및 AWS Glue와 같은 분석 서비스에서 의미 있는 통찰력을 추출할 수 있습니다. 이 기능을 사용하면 Glue 크롤러가 매니페스트 파일을 생성할 필요 없이 분석 서비스가 Delta Lake 테이블을 스캔할 수 있습니다. 새롭게 카탈로그화된 데이터는 이제 선호하는 분석 및 기계 학습(ML) 도구를 사용하여 신속하게 분석에 사용할 수 있습니다.
이전에는 Glue 크롤러가 다양한 분석 서비스를 사용할 수 있도록 Amazon S3에 매니페스트 파일을 생성하여 Delta Lake 테이블을 지원했습니다. Glue 크롤러는 정기적으로 매니페스트 파일을 생성하여 원본 Delta Lake 테이블에 최신 트랜잭션을 포함해야 하는 문제로 처리 시간이 길어졌습니다.
오늘 출시를 통해 네이티브 Delta Lake 테이블을 생성할 수 있는 옵션을 사용하여 Glue 크롤러를 생성하고 스케줄링한 다음 Delta Lake 테이블이 있는 Amazon S3로 이동가는 경로를 제공할 수 있습니다. 크롤러가 실행될 때마다 크롤러는 Glue Data Catalog의 Delta Lake 테이블에 대한 스키마 정보 및 파티션 정보(예: 업데이트 또는 삭제)를 검사하고 카탈로그화합니다.
네이티브 Delta Lake 테이블에 대한 AWS Glue 크롤러 지원은 AWS Glue를 사용할 수 있는 모든 상업 리전에서 사용할 수 있으며, 자세한 내용은 AWS 리전 테이블을 참조하십시오. 향상된 Delta Lake 지원은 Athena 엔진 버전 3.0 및 Glue 버전 3.0 이상에서 사용할 수 있습니다. 자세히 알아보려면 블로그를 읽고 AWS Glue 크롤러 설명서를 참조하십시오.