Amazon SageMaker 数据处理常见问题

一般性问题

Amazon SageMaker 数据处理利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(MWAA)的处理功能,以分析、准备、集成和协调您的数据。您可以利用 Apache Spark 等开源数据处理框架,通过 Trino 大规模分析数据,并使用 Apache Flink 和 Apache Spark 无缝构建实时分析。

Amazon SageMaker 数据处理汇集了 Amazon EMRAmazon AthenaAWS GlueAmazon Managed Workflows for Apache Airflow

SageMaker 数据处理可帮助您探索数据、构建数据转换任务、编排和大规模部署数据管道。相比传统开源系统,它使用经济高效且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,以提高性能,并更快速地获得见解。数据处理可通过零 ETL 集成、联合查询功能和连接器,访问您在 Amazon SageMaker Lakehouse 中的数据来源。

迁移和访问

不,您不需要迁移到 Amazon SageMaker。您可以像现在一样继续使用 Amazon EMR、Amazon Athena、AWS Glue 和 Amazon Managed Workflows for Apache Airflow。但是,我们建议您开始使用 Amazon SageMaker,以利用统一的工具、内置的数据治理和简化的 Amazon SageMaker Lakehouse 架构。

您已经通过 Amazon EMR、Amazon Athena 或 AWS Glue 创建并使用的当前代码、查询、作业和其他资源不会受到任何影响。如果您愿意,可以继续将这些服务用于新的工作负载。在这些服务中创建的资源(如 EC2 集群上的 Amazon EMR)在 Amazon SageMaker 中可见,以简化分析和人工智能应用程序的开发。除 Amazon SageMaker 中的新开发体验以外,在 Amazon EMR、AWS Glue 和 Amazon Athena 中构建的现有开发体验将继续存在。

AWS Glue 的最新版本 Glue 5.0 已在 Amazon SageMaker 上线。Glue 5.0 可加速数据处理工作负载,并提供最新的性能优化型 Apache Spark 3.5.2 运行时,助您进行开发、运行和扩展,以更快地获得见解。要了解更多信息,请访问 AWS Glue

定价

您通过 Amazon SageMaker 使用的每项 AWS 服务均受其各自的定价限制。如需了解更多信息,请查阅 Amazon AthenaAmazon EMRAWS GlueAmazon Managed Workflow Apache Airflow 的 AWS 定价页面。