亚马逊AWS官方博客

Category: Analytics

CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类,自 `0.10.0` 版开始,Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面,越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类, 一个是“开箱即用”的 Spark 运行环境,两者结合在一起,仅通过一条命令,就可以轻松实现 CDC 数据入湖。

使用 Flink Hudi 处理变更数据流并通过 Redshift Spectrum 进行数据分析实践

这是一个典型的数据分析场景,分散在不同业务数据库里的表格数据,需要汇总到数据湖或数据仓库中进行统一分析。运营人员希望尽可能的实时查询到这些数据,他们需要第一手的订单数据以便快速做出决策。 为实现这类场景需求,有很多种办法,本文介绍通过可视化交互开发平台 Zeppelin 上使用 Flink SQL 实现 ETL 任务,并支持近实时高并发 Upsert 到数据湖,利用 Redshift Spectrum 进行快速分析查询。

利用 serverless 服务布署非组织且多账户的 Health 事件监控面板

对于亚马逊云科技的客户及合作伙伴,它们的账户众多且管理权限复杂,同时由于每月就会有数百甚至数千条通告信息,集中查看 Health 事件并定制化展示和分类是具有价值的,这里展示如何利用无服务器服务自动化布署并收集 Health 状态信息,同时定制化适合自己业务需求的监控面板,以此来准确掌控 Health 事件信息。

Amazon DynamoDB Flink SQL 实时计算实践

在实时计算场景下,使用 Flink 结合 HBase 或 Redis 做维表关联计算可以提高计算效率和准确性。例如,在广告投放场景下,可以使用 Flink 结合 HBase 或 Redis 做维表关联计算,从而更加精准地对用户进行定向广告投放和个性化推荐。Amazon DynamoDB 是一种全托管的 NoSQL 数据库服务,提供快速而可预测的性能,能够实现无缝扩展。DynamoDB 可以免除操作和扩展分布式数据库的管理工作负担,因而无需担心硬件预置、设置和配置、复制、软件修补或集群扩展等问题。