Amazon SageMaker 数据处理

分析、准备和集成用于分析和人工智能的任意规模的数据

为什么选择 Amazon SageMaker 数据处理?

利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(MWAA)的数据处理功能,以准备、集成和协调您的数据。无论数据存放在何处,您都能快速、轻松地连接到数百个数据来源,从而处理和整合数据。

利用 Apache Spark、Trino 和 Apache Flink 等开源数据处理框架。借助 Trino 大规模分析数据,无需管理基础设施,并可使用 Apache Flink 和 Apache Spark 无缝构建实时分析。

通过与 Amazon SageMaker Lakehouse 的原生集成,自动化数据质量、敏感数据识别、任务流水线跟踪和执行精细访问控制,确保您的数据准确且安全。

优势

SageMaker 数据处理提供对数据和流处理框架、开源分布式 SQL 查询引擎以及笔记本、查询编辑器和可视化 ETL 等最常用工具的全面访问。

您可以访问 Apache Spark 等最常用的框架,以准备和集成任何规模的数据。利用 Apache Flink 和 Spark Streaming 进行流处理,响应实时业务需求,并利用 Trino 等领先的开源 SQL 框架分析数据。通过与 Amazon Managed Workflows with Apache Airflow(MWAA)的原生集成,无需管理基础设施,即可简化工作流程编排。

Amazon SageMaker 数据处理与 SageMaker Lakehouse 原生集成,让您可以使用一份数据副本处理和集成所有使用案例,包括分析、临时查询、机器学习和生成式人工智能。

SageMaker Lakehouse 统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据,以提供对数据的统一访问。通过数百个连接器、零 ETL 集成和联合数据来源,您可以发现和分析 Lakehouse 中的统一数据,从而全面了解您的业务。SageMaker Lakehouse 可以直接使用您的现有数据架构,不受特定存储格式或查询引擎选择的限制。

借助 Apache Iceberg 表的快速查询性能来提高效率。借助高性能且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,获取见解的速度比传统开源系统快 2 倍。

借助 SageMaker 数据处理,您可以专注于转换和分析数据,而无需管理计算能力或开源应用程序,从而节省时间并降低成本。您可以在 Amazon Elastic Compute Cloud(Amazon EC2)的 Amazon EMR 上或者 Amazon Elastic Kubernetes Service(Amazon EKS)的 Amazon EMR 上自动预置容量。扩展规则可管理计算需求的变化,以优化性能和运行时。

通过与 Amazon SageMaker Catalog 集成,为数据和人工智能模型提供自动数据质量报告、敏感数据检测和任务流水线跟踪,从而建立信任、提高透明度。通过自动测量、监控和数据质量规则建议,增强对数据质量的信心。

通过遵守和执行 SageMaker Lakehouse 中数据集定义的精细访问控制,安全地处理和分析数据,让您只需定义一次权限,即可让整个组织的授权用户访问您的数据。

种 AWS 产品

简化数据集成

AWS Glue 提供无服务器数据集成,可简化多个来源的数据探索、准备和集成。连接到不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道,从而将数据加载到湖仓中。AWS Glue 可按需自动扩缩,因此,您可以更专注于从您的数据中获取见解,无需管理基础设施。

运行和扩展 Apache Spark、Apache Hive、Trino 及其他工作负载

借助 Amazon EMR,您可以轻松运行 Apache Spark、Apache Airflow、Apache Flink、Trino 等数据处理工作负载,实现更高的成本效益。构建和运行数据处理管道,实现比本地解决方案更快的自动扩展。

追踪成本

Amazon Athena 提供一种简单且灵活的方法,可分析任何规模的数据。Athena 是一项交互式查询服务,可使用标准 SQL 简化 Amazon S3 中的数据分析。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算资源进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可以自动扩展,同时完成并行查询,因此可快速获取结果,对于大型数据集和复杂查询也不例外。

适用于 Apache Airflow 的高度可用且注重安全的托管式工作流程编排

Amazon MWAA 是 Apache Airflow 的一项托管服务,让您可以使用当前熟悉的 Apache Airflow 平台来编排您的工作流程。您可以获得更高的可扩展性、可用性和安全性,而无需承担管理底层基础设施的运营负担。Amazon MWAA 会使用以 Python 编写的有向无环图(DAG)来编排您的工作流。您可向 Amazon MWAA 提供 S3 存储桶,其中包含您的 DAG、插件和 Python 需求。大规模部署 Apache Airflow,而不会增加管理底层基础设施的运营负担。

使用案例

快速识别和访问 AWS、本地和其他云端的统一数据,然后立即将其用于查询和转换。

使用 Apache Spark、Apache Flink 和 Trino 等框架以及批处理、微批处理和流式处理等各种工作负载处理数据。

使用统计算法和预测性模型运行大规模数据处理和 what-if 分析,发现隐藏的模式、相关性、市场趋势和客户偏好。