AWS Glue Data Catalog 现在支持 Apache Iceberg 表的存储优化

发布于: 2024年9月12日

AWS Glue Data Catalog 现在可以自动删除不再需要的数据文件,从而支持 Apache Iceberg 表的存储优化。每次对 Iceberg 表进行写入操作时,系统都会创建表的新快照,也就是表的新版本。此外,在向 Iceberg 表写入数据时,每次出现故障,系统都会创建快照中没有引用的数据文件(称为“孤立”文件),从而进一步增加存储成本。AWS Glue 目录新增的存储优化和自动压缩功能可以帮助您减少元数据开销、控制存储成本并提高查询性能。

此次发布后,您可以启用 AWS Glue 目录表优化功能,以便实现快照管理和孤立数据管理。您可以提供默认保留期和孤立文件保留天数等配置,从而优化 Amazon S3 的存储策略。启用后,AWS Glue 目录会定期监控表、从表元数据中删除快照,并删除 Amazon S3 数据文件和不再需要的孤立文件。您可以在 Glue 目录控制台的表优化选项卡中查看已删除的数据、清单、清单列表和孤立文件数量的历史记录。

除了 AWS 管理控制台外,客户还可以使用 AWS CLI 或 AWS SDK 启用 Apache Iceberg 表的表优化。Iceberg 表自动优化功能已在 13 个 AWS 区域推出:美国东部(弗吉尼亚州北部、俄亥俄洲)、美国西部(俄勒冈州)、欧洲(爱尔兰、伦敦、法兰克福、斯德哥尔摩)、亚太地区(东京、首尔、孟买、新加坡、悉尼)、南美洲(圣保罗)。要了解更多信息,请阅读此博客,并访问 AWS Glue Data Catalog 文档