发布于: Nov 19, 2021
今天,我们很高兴地宣布 Amazon Athena 支持使用 AWS Glue 数据目录分区索引来优化查询计划并减少查询运行时间。当您查询包含大量分区的表时,Athena 会从 AWS Glue 数据目录中检索可用分区并确定您的查询需要哪些分区。随着新分区的增加,检索分区所需的时间也会增加,并可能导致查询运行时间增加。AWS Glue 数据目录允许客户创建分区索引,它可减少在具有数十万个分区的表上检索和筛选分区元数据所需的时间。
在 Athena 中使用分区索引是一个简单的两步过程。首先,从 Glue 数据目录中选择要索引的列并开始创建索引。接下来,在表上启用分区筛选并返回 Athena 以运行查询。有关更多信息,请参阅 AWS Glue 分区索引和筛选。
新表和现有表都支持分区索引,因此您无需重新构建数据集或重新编写查询即可发挥性能优势。要了解更多信息,请参阅使用 AWS Glue 数据目录分区索引提高 Amazon Athena 查询性能。
除了 Amazon Athena 之外,分区索引还有利于在 Amazon EMR、Amazon Redshift Spectrum 和 AWS Glue 上运行的分析工作负载。要了解更多信息,请参阅使用 AWS Glue 分区索引提高查询性能。