直接从 Amazon SageMaker Studio 使用 Amazon EMR Serverless 上的 Apache Spark
发布于:
2024年9月4日
现在,您可以直接从 Amazon SageMaker Studio 笔记本在 Amazon EMR Serverless 上运行 PB 级数据分析和机器学习。EMR Serverless 自动预置和扩展所需资源,让您能够专注于数据和模型,而无需配置、优化、调整或管理集群。EMR Serverless 会自动安装和配置开源框架,并提供性能优化的运行时,该运行时与标准开源兼容且速度更快。
此次发布后,您现在可以直接从 SageMaker Studio 直观地创建和浏览 EMR Serverless 应用程序,只需单击几次即可连接到这些应用程序。连接到 EMR Serverless 应用程序后,您可以使用 Spark SQL、Scala、Python 以交互方式查询、探索和可视化数据,同时直接从 Studio 笔记本运行 Apache Spark 任务来处理数据。这些任务可快速运行,因为它们使用 EMR 的性能优化版本 Spark。例如,EMR 7.1 上的 Spark 比同等开源版本快 4.5 倍。EMR Serverless 提供精细的自动扩缩,可预置并快速扩展计算和内存资源来满足应用程序的要求,而且您只需为您实际使用的资源付费。
这些功能在 SageMaker Distribution 1.10 及更高版本中受到支持,并且在所有提供 SageMaker Studio 的 AWS 区域中全面推出。要了解更多信息,请阅读博客结合使用 LangChain 和 PySpark 在 Amazon SageMaker Studio 和 EMR Serverless 中进行大规模文档处理,或在此处查看 SageMaker Studio 文档。