发布于: Oct 14, 2022
AWS Glue 包括基于 Amazon S3 事件通知的爬网程序,此功能通过仅基于 Amazon S3 中的事件扫描数据,简化了数据集发现过程。Glue 爬网程序提取数据架构并自动填充 AWS Glue Data Catalog,使元数据保持最新状态。Glue 爬网程序基于 S3 事件爬取数据集,通过您的首选分析和机器学习工具,快速提供新摄取的数据进行析师,从而缩短获取洞察所需的时间。
目前我们将此支持扩展到增量爬取,并更新由非爬网程序方法(例如在数据管道中执行的 API 调用)创建的目录表。通过此功能,增量爬取现在可以从数据管道卸载到计划的 Glue 爬网程序,从而减少对增量 S3 事件的爬取。
要完成增量爬取,客户可以将 Amazon S3 事件通知配置为发送到 Amazon Simple Queue Service (SQS) 队列。 然后客户可以使用 SQS 队列作为标识更改的来源,还可以使用 Glue Data Catalog 表作为目标来计划或运行 Glue 爬网程序。每次爬网程序运行时,它都会检查该 SQS 队列中是否有新事件。如果找不到任何新事件,爬网程序将停止运行。如果在队列中找到事件,爬网程序会检查它们各自的文件夹,通过内置分类器(适用于 CSV、JSON、AVRO、XML 等)进行处理,并确定更改。爬网程序随后会使用新信息更新 Glue Data Catalog,例如新添加或删除的分区或列。此功能可减少爬取大型和频繁更改的 Amazon S3 数据的成本和时间。