推出用于持续处理流数据的 Amazon EMR Serverless 流作业

发布于: 2024年6月4日

Amazon EMR Serverless 是 Amazon EMR 中的一个无服务器选项,让数据工程师和数据科学家能够轻松运行开源大数据分析框架,而无需配置、管理和扩展集群或服务器。我们很高兴地宣布在 Amazon EMR Serverless 上推出新的流作业模式,使您能够持续分析和处理流数据。
对于企业从传感器、IoT 设备和 Web 日志等数据来源获得持续见解而言,流式传输已变得至关重要。但是,由于需要满足高可用性、故障恢复能力以及与流服务集成等要求,处理流数据可能具有挑战性。Amazon EMR Serverless 流作业具有解决这些挑战的内置功能。它通过自动故障转移到运行状况良好的可用区,从而通过多可用区弹性提供高可用性。它还通过在失败时自动重试作业以及日志轮换和压缩等日志管理功能来提高弹性,从而防止可能导致作业失败的日志文件累积。此外,Amazon EMR Serverless 流作业还支持处理来自自我管理型 Apache Kafka 集群、Amazon Managed Streaming for Apache Kafka 等流服务的数据,并且现在使用新的内置 Amazon Kinesis Data Streams 连接器与 Amazon Kinesis Data Streams 集成,从而更轻松地构建端到端流管道。

Amazon EMR Serverless 流作业现已在 EMR 7.1.0 及更高版本以及以下 AWS 区域全面推出:美国东部(弗吉尼亚州北部、俄亥俄州)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩、巴黎、法兰克福、爱尔兰、伦敦)、南美洲(圣保罗)和亚太地区(东京、首尔、新加坡、孟买、悉尼)。要开始使用,请访问 Amazon EMR Serverless 用户指南中的 Amazon EMR Serverless 流作业页面。