为什么选择 Amazon SageMaker 数据处理?
利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(MWAA)的数据处理功能,以准备、集成和协调您的数据。无论数据存放在何处,您都能快速、轻松地连接到数百个数据来源,从而处理和整合数据。
利用 Apache Spark、Trino 和 Apache Flink 等开源数据处理框架。借助 Trino 大规模分析数据,无需管理基础设施,并可使用 Apache Flink 和 Apache Spark 无缝构建实时分析。
通过与 Amazon SageMaker Lakehouse 的原生集成,自动化数据质量、敏感数据识别、任务流水线跟踪和执行精细访问控制,确保您的数据准确且安全。
优势
种 AWS 产品
简化数据集成
AWS Glue 提供无服务器数据集成,可简化多个来源的数据探索、准备和集成。连接到不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道,从而将数据加载到湖仓中。AWS Glue 可按需自动扩缩,因此,您可以更专注于从您的数据中获取见解,无需管理基础设施。
运行和扩展 Apache Spark、Apache Hive、Trino 及其他工作负载
借助 Amazon EMR,您可以轻松运行 Apache Spark、Apache Airflow、Apache Flink、Trino 等数据处理工作负载,实现更高的成本效益。构建和运行数据处理管道,实现比本地解决方案更快的自动扩展。
追踪成本
Amazon Athena 提供一种简单且灵活的方法,可分析任何规模的数据。Athena 是一项交互式查询服务,可使用标准 SQL 简化 Amazon S3 中的数据分析。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算资源进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可以自动扩展,同时完成并行查询,因此可快速获取结果,对于大型数据集和复杂查询也不例外。
适用于 Apache Airflow 的高度可用且注重安全的托管式工作流程编排
Amazon MWAA 是 Apache Airflow 的一项托管服务,让您可以使用当前熟悉的 Apache Airflow 平台来编排您的工作流程。您可以获得更高的可扩展性、可用性和安全性,而无需承担管理底层基础设施的运营负担。Amazon MWAA 会使用以 Python 编写的有向无环图(DAG)来编排您的工作流。您可向 Amazon MWAA 提供 S3 存储桶,其中包含您的 DAG、插件和 Python 需求。大规模部署 Apache Airflow,而不会增加管理底层基础设施的运营负担。