发布于: Sep 21, 2021
Amazon SageMaker 宣布推出一组新功能,这些功能将支持从 SageMaker Studio Notebooks 进行基于 Spark 的交互式数据处理。Amazon SageMaker Studio 是首个适用于机器学习 (ML) 的完全集成式开发环境 (IDE)。SageMaker Studio 提供基于 Web 的统一可视化界面,让您可以轻松执行准备数据以及构建、训练和部署模型所需的所有机器学习开发步骤。只需要单击一下,数据科学家和开发人员就能快速启动 Studio Notebooks,用于交互式探索数据集和构建机器学习模型。
即日起,数据科学家和数据工程师直接从他们的 Studio Notebooks 中单击几下,就可以直观地浏览、发现和连接到在 Amazon EMR 上运行的 Spark 数据处理环境。连接后,他们可以使用 Python 和 Scala 的内置 SparkMagic Notebook 环境,以交互方式查询、探索和可视化数据,并运行 Spark 任务。
分析、转换和准备大量数据是所有数据科学和机器学习工作流的基本步骤,许多企业都在利用 Apache Spark 快速准备数据。SageMaker Studio 已经提供了专门构建的一流机器学习工具,例如 Experiments、Clarify 和 Model Monitor。使用新推出的功能,客户可以从 Studio Notebooks 轻松访问专门构建的 Spark 环境。因此,SageMaker Studio 现在可以作为数据科学和数据工程工作流的统一环境,使客户能够在 Studio Notebooks 上对数据工作流进行标准化。
SageMaker Studio 中的这些新数据分析功能在提供 SageMaker Studio 的所有 AWS 区域都可用,使用此功能无需额外付费。有关定价和区域可用性的完整信息,请参阅 SageMaker Studio 定价页面。要了解详情,请参阅 SageMaker Studio Notebooks 用户指南中的“使用 Studio Notebooks 准备交互式数据”。