Amazon SageMaker 常见问题

一般性问题

下一代 Amazon SageMaker 是用于数据、分析和人工智能的统一平台。下一代 SageMaker 汇集了广泛采用的 AWS 机器学习和分析功能,可统一访问您的所有数据,为分析和人工智能提供一体式体验。它让您能够使用熟悉的 AWS 服务进行模型开发、生成式人工智能、数据处理和 SQL 分析,在 Unified Studio(预览版)中加快协作和构建,并借助最强大的生成式人工智能软件开发助手 Amazon Q 开发者版提升效率。此外,无论数据存储在数据湖、数据仓库、第三方应用程序还是联合数据来源中,您都可以访问所有数据,内置治理功能可满足企业安全需求。

我们利用 AWS 数据、分析和人工智能功能的综合集,对广泛采用的 Amazon SageMaker 服务进行了扩展,以提供统一的数据、分析和人工智能平台。展望未来,SageMaker 中用于数据整理、构建、训练和部署 AI 模型的现有 AI/ML 功能集将称为 Amazon SageMaker AI。Amazon SageMaker AI 集成在下一代 Amazon SageMaker 中,也可作为独立服务提供给希望专注于大规模构建、训练和部署人工智能和 ML 模型的用户。

下一代 Amazon SageMaker 包括:

  • Amazon SageMaker Unified Studio(预览版):单一的开发环境,用于访问和使用来自专门构建的 AWS 分析和 AI/ML 服务(如 Amazon EMR、AWS Glue、Amazon Athena、Amazon Redshift、Amazon Bedrock 和 Amazon SageMaker AI)的熟悉工具和功能
  • Amazon SageMaker Lakehouse:跨 Amazon S3 数据湖、Amazon Redshift、第三方和联合数据来源的统一数据访问
  • Amazon SageMaker 数据和人工智能治理:让您能够安全地发现、治理和协作处理数据和人工智能

下一代 Amazon SageMaker 包括以下功能:

  • Amazon SageMaker Unified Studio(预览版):在单一环境中使用用于分析和人工智能的所有数据和工具进行构建。
  • Amazon SageMaker Lakehouse:使用 Amazon SageMaker Lakehouse 统一 Amazon Simple Storage Service(Amazon S3)数据湖、Amazon Redshift 数据仓库、第三方和联合数据来源中的数据。
  • 数据和人工智能治理:使用基于 Amazon DataZone 构建的 Amazon SageMaker Catalog,安全地发现、管理和协作处理数据和人工智能。
  • 模型开发:借助 Amazon SageMaker AI(以前称为 Amazon SageMaker),使用完全托管的基础设施、工具和工作流程,以构建、训练和部署机器学习和基础模型。
  • 生成式人工智能应用程序开发:使用 Amazon Bedrock 构建和扩展生成式人工智能应用程序。
  • SQL 分析:使用性价比最高的 SQL 引擎 Amazon Redshift 获得见解。
  • 数据处理:使用 Amazon Athena、Amazon EMR 和 AWS Glue 上的开源框架分析、准备和集成用于分析和人工智能的数据。

Amazon SageMaker 是用于数据、分析和人工智能的统一平台。下一代 SageMaker 汇集了广泛采用的 AWS 机器学习和分析功能,可统一访问您的所有数据,为分析和人工智能提供一体式体验。这种统一的方法可帮助您更高效地处理数据、加强跨团队协作并提高整体工作效率。

Amazon SageMaker 让您能够

  • 将熟悉的 AWS 服务用于模型开发、生成式人工智能、数据处理和 SQL 分析,从而通过单一数据和人工智能开发环境加速协作和构建。
  • 使用大量工具开发和扩展您的人工智能使用案例,以训练、自定义和部署机器学习和基础模型,并快速创建为业务量身定制的生成式人工智能应用程序。
  • 使用开放式湖仓以统一 Amazon S3 数据湖、Amazon Redshift 数据仓库、第三方或联合数据来源中的所有数据,从而减少数据孤岛。
  • 通过内置的数据和人工智能治理满足您的企业安全需求,以控制合适的用户出于合适的目的访问合适的数据、ML 模型、GenAI 开发构件和计算。

符合。您可以根据您的特定业务需求,继续使用个别 AWS 服务,例如 Amazon SageMaker AI(前身为 Amazon SageMaker)、用于大数据处理的 Amazon EMR、AWS Glue 和用于数据仓库的 Amazon Redshift。这不会影响您目前使用个别服务的方式。

Amazon SageMaker 通过提供统一、用户友好的界面来访问这些服务,从而提供其他优势。这种方法可以帮助您更有效地利用数据进行创新,增强团队间的协作并提高整体工作效率。

Amazon SageMaker 汇集了包含 Amazon SageMaker Unified Studio(预览版)、Amazon SageMaker 数据和人工智能治理以及 Amazon SageMaker Lakehouse 的一套全面的 AWS 人工智能和分析服务集。

通过 Amazon SageMaker Unified Studio,您可以使用现有的 AWS 服务访问数据处理、SQL 分析、机器学习和生成式人工智能应用程序开发等功能。在数据处理方面,使用 Amazon Athena、AWS Glue、Amazon EMR 和 Amazon Managed Workflow for Apache Airflow 等服务,以轻松分析、准备、集成和编排任意规模的用于分析和人工智能的数据。在 SQL 分析方面,Amazon Redshift 可与 Amazon SageMaker Lakehouse 无缝集成,为您跨 Redshift 数据仓库和 Amazon S3 数据湖的统一数据提供强大的 SQL 分析功能。Amazon SageMaker AI(以前称为 Amazon SageMaker)可提供机器学习功能,用于构建、训练和部署机器学习和基础模型。此外,您还可以使用 Amazon Bedrock IDE(预览版)开发生成式人工智能应用程序。

Amazon SageMaker 数据和人工智能治理通过基于 Amazon DataZone 构建的 Amazon SageMaker Catalog 中的统一数据管理体验,提供端到端内置治理,以安全地发现、治理和协作处理数据和人工智能。

Amazon SageMaker Lakehouse 基于 AWS Glue Data Catalog、AWS Lake Formation 和 Amazon Redshift 的多个目录服务构建,可提供跨 Amazon S3 数据湖、Amazon Redshift 数据仓库、第三方和联合数据来源的统一数据访问。

此外,这些服务仍可通过 AWS 管理控制台作为独立功能使用,从而让您可以根据自己的使用案例灵活使用。我们将在 2025 年通过更多服务来增强 Amazon SageMaker 平台,以统一分析和人工智能方面的体验。这些服务包括使用 Amazon OpenSearch Service 进行搜索分析、使用 Amazon QuickSight 实现商业智能以及使用 AWS 流媒体服务组合进行流式传输。

开始使用 Amazon SageMaker 非常简单。第一步是导航到 Amazon SageMaker Unified Studio(预览版)管理控制台,创建一个域,即用于将资产、用户及其业务部门项目连接在一起的组织实体。在管理控制台中,选择“创建域”,您将看到两个选项:快速设置和手动设置。选择“快速设置”,即可开始使用一组默认配置,稍后可对其进行自定义。或者,您也可以选择“手动设置”,在创建域时完全控制设置。域创建完成后,您可以导航到 Amazon SageMaker Unified Studio(基于浏览器的 Web 应用程序),在这里您可以使用所有数据和配置好的工具进行分析和人工智能。要详细了解如何开始使用,请参阅 SageMaker 文档。

您在 Amazon EMR、AWS Glue 和 Amazon Athena 等 AWS 服务中的现有数据开发体验仍然可用。这意味着您创建的所有现有代码和资源都可以继续使用,不会中断。我们将提供易于使用的升级脚本和全面的指南,以便在 2025 年第一季度将您的现有代码库引入统一的 SageMaker 体验。

我们正在通过整合客户当前已使用的全套 AWS 数据、分析和人工智能工具集,将广泛采用的机器学习服务 Amazon SageMaker 扩展到数据和人工智能平台。我们还为新的 SageMaker 平台增加了新功能,包括 SageMaker Unified Studio(预览版)、SageMaker Lakehouse(GA)和 SageMaker Catalog(GA)。

新的 SageMaker 平台几乎包含使用 Amazon Redshift 进行 SQL 分析、使用 Amazon EMR 进行数据处理、使用 SageMaker AI 进行人工智能模型开发以及使用新的 BedRock IDE(预览版)进行生成式人工智能应用程序开发所需的所有组件,所有这些都通过 Unified Studio(预览版)中的集成开发体验提供。

产品体验

SageMaker 中的项目实体可帮助用户组织作业,并为他们正在执行的作业提供业务背景。它提供协作工作空间,用户可以在其中协作处理数据和构件,例如机器学习模型、笔记本、查询、仪表板和生成式人工智能应用程序。项目受到保护,因此只有那些被明确添加到项目中的用户可以访问其内部的数据和工具。项目会根据针对项目特定的功能(例如数据湖)创建 AWS Identity and Access Management(IAM)角色,为用户提供完成工作所需的访问权限。项目还允许在同一账户内独立工作,并且会创建安全边界(安全组和 IAM 角色)。

Amazon Q 开发者版是一款集成到 SageMaker 体验中的生成式人工智能对话助手,可在整个开发生命周期中提高您的工作效率。通过聊天界面,您可以使用自然语言询问有关 SageMaker 的问题、获取代码帮助以及探索数据集等资源。当您与 Amazon Q 开发者版聊天时,它会使用您当前对话的上下文,以在整个 SageMaker 开发体验中提供个性化指导和自动帮助。Amazon Q 开发者版可以帮助您进行代码讨论、提供内联代码补全、生成 SQL 查询、查找和集成数据集,并根据您的特定开发需求量身定制智能支持。


通过了解您工作的细微差别,Amazon Q 开发者版提供有针对性的情境感知帮助,从而简化您的开发流程,并提高 SageMaker 环境中的整体工作效率。

SageMaker 提供基于 Web 的统一环境,汇集了用于完整数据和人工智能工作流程的强大工具。内置 IDE 支持人工智能/机器学习开发,让您能够使用 PySpark、AWS Glue 和 Amazon EMR 等框架和服务处理不同来源的大量数据。

对于版本控制和工作流程管理,您可以提交到 Git,并使用 Amazon MWAA 定义工作流程。集成的 SQL 查询编辑器可让您探索、分析和可视化数据,并能更轻松地保存和共享查询以及创建新的数据集。

通过熟悉的 SageMaker AI 工具,包括 Amazon SageMaker 笔记本、JumpStart、HyperPod、MLFlow、Pipelines 和模型注册表,简化模型开发。在这些过程中,Amazon Q 开发者版与 SageMaker 工具无缝集成,在数据发现、准备、管道创建、模型构建和培训以及代码部署方面提供智能协助。

Bedrock IDE(预览版)集成在 SageMaker Unified Studio(预览版)中,为开发生成式人工智能应用程序提供全面的环境。这种直观的界面可帮助您在可信和安全的环境中加快应用程序开发,允许您访问 Amazon Bedrock 的高性能 FM 和高级自定义功能。

您可以使用 Amazon Bedrock 知识库、防护机制、代理和 Prompt Flows 等强大功能,让您的团队能够快速定制生成式人工智能应用程序,以满足您的特定业务需求,同时遵守负责任的人工智能准则。该平台支持您的受控访问,并通过访问受控共享和 git 支持的可审计性实现安全的跨职能协作。

Amazon SageMaker Lakehouse 统一 AWS 数据湖、数据仓库、第三方应用程序和操作数据库中的数据。通过零 ETL 集成、联合查询来源和 240 多个连接器,让您可以在一个地方快速简单地访问数据。

Amazon SageMaker 通过基于 Amazon DataZone 构建的 Amazon SageMaker Catalog 中的统一数据管理体验提供端到端内置治理。这种方法让您能够编目、发现、访问、分析和管理组织中的结构化和非结构化数据资产、机器学习模型和应用程序。该平台能够确保正确的人员对正确的资产进行适当的访问,从而保持强大的安全性和合规性标准。

您可以通过多种方式在 SageMaker 中创建和管理数据管道。SageMaker 数据处理汇集了 Amazon EMR、Amazon Athena、AWS Glue 和 Amazon MWAA,可帮助您以统一的体验集成、准备和探索数据。您可以使用 SageMaker AI 为 ML 特定模型编排构建管道,使用 Amazon MWAA 构建数据管道和工作流程。您还可以使用零 ETL 集成,消除复杂的提取、转换、加载(ETL)过程并实现跨服务的直接数据复制,以简化数据移动。如需了解更多信息,请访问什么是零 ETL?

定价

使用 Amazon SageMaker 时,您将按照通过 Amazon SageMaker 访问的各种 AWS 服务的定价模式收费。使用 Amazon SageMaker Unified Studio(预览版),以及在 Amazon SageMaker 中提供集成体验的数据和人工智能开发环境无需单独支付费用。有关详细信息,请访问 Amazon SageMaker 定价页面 SageMaker 定价

SageMaker Free Tier 可帮助您快速使用数据和人工智能进行创新,无需支付费用。有关详细信息,请参阅 SageMaker 定价

可用性

下一代 Amazon SageMaker 已在美国东部(弗吉尼亚北部、俄亥俄州)、美国西部(俄勒冈州)、亚太地区(东京)和欧洲地区(爱尔兰)的 AWS 区域推出。Amazon SageMaker Unified Studio 和 Amazon Bedrock IDE 已在这些 AWS 区域推出预览版。有关未来更新,请查看 AWS 区域性服务列表

符合。SageMaker 经过精心设计,可提供关键任务型分析和人工智能工作负载所需的稳定性能和正常运行时间。作为由多个服务组件组成的统一平台,服务可用性与所使用的服务组件息息相关。

有关每项服务的服务等级协议(SLA)的详细信息,请参阅其相应的 SLA 文档。SLA 将为您提供构成 SageMaker 体验的各种服务的具体正常运行时间保证和可靠性承诺。

可用的 SLA 文档包括: