[SEO 副标题]
本指南显示了如何在 AWS 上实施集中式多账户机器学习(ML)模型治理策略。通过集中式模型治理方法,您可以建立单一的权威存储库,用于注册、版本控制和共享 ML 模型。作为 ML 模型从开发到部署和监控的整个生命周期的主要控制点,集中式方法有助于实现一致的模型管理、简化模型共享和部署,并提高可见性和控制力。因此,这种方法通过简化监控和审批工作流程,增强了合规性并降低了风险敞口。
注意:[免责声明]
架构图
[架构图描述]
第 1 步
利益相关者,特别是数据科学家(DS)团队负责人,会收到业务领导者的请求,以开发 AI 用例,例如信用风险模型。
第 1a 步
机器学习工程师(MLE)接到通知,要为开发新模型建立一个模型组。然后,MLE 会创建必要的基础设施管道,以设置新的模型包组。
第 2 步
MLE 会设置管道,将具有必要权限(创建、描述、更新模型版本)的模型组共享给 ML 项目组的开发账户。或者,如果需要本地账户访问模型版本,也可以选择与测试和生产账户共享软件包组。
第 3 步
DS 使用开源平台 MLflow 来管理端到端机器学习生命周期。在 Amazon SageMaker Studio 中用 MLflow 来构造模型实验、选择候选模型,以及在本地 Amazon SageMaker 模型注册表的共享模型组中注册模型版本。
第 4 步
由于这是一个共享模型组,模型版本元数据将记录在集中式模型注册表中,并在开发账户中保留相应的链接。
MLE 可以在共享账户中设置 Amazon Simple Storage Service(Amazon S3)和 Amazon Elastic Container Registry(Amazon ECR),允许 DS 存储来自开发账户的模型构件。DS 被授予必要的权限,可以在共享服务账户内访问 Amazon S3 和 Amazon ECR 中的模型构件。
第 5 步
集中式模型注册表触发 Amazon EventBridge 规则,该规则反过来会调用 AWS Lambda 函数,将相关数据写入 Amazon DynamoDB 表。该模型版本使用 DynamoDB 与模型阶段治理表同步,该表记录了模型组、模型版本、模型阶段(例如:开发、测试、生产)、模型状态(待处理、已批准、已拒绝)和模型指标等属性。
DynamoDB 可为注册 Amazon SageMaker 之外各种来源的模型提供存储空间,从而实现所有企业模型和元数据的综合视图。DynamoDB 表是集中模型治理系统,与用例和模型生命周期阶段相集成。它还增强了元数据和审批,以及 SageMaker 模型注册表属性,并集中了来自生产推理端点的模型治理和性能指标。
第 6 步
模型版本获准部署到测试阶段,随后部署到测试账户中。它与调用模型所需的基础设施一起部署,例如 Amazon API Gateway 和 Lambda。
第 7 步
该模型在测试环境中接受集成测试,质量保证(QA)模型评测指标在集中式模型注册表中更新,然后借助 Lambda 函数写入 DynamoDB 表。
第 8 步
模型测试结果经过验证,模型版本已获准部署到生产阶段。然后,将该模型与调用模型所需的基础设施(如 API Gateway 和 Lambda 等)一起部署到生产账户中。
第 9 步
在生产环境中对模型进行 A/B 测试,并在 DynamoDB(模型阶段治理)表中更新模型生产指标。一旦取得令人满意的生产结果,就会在生产环境中推广该模型版本。此外,模型端点还启用了模型监控功能。
第 10 步
模型治理或合规官会使用 Amazon QuickSight 中的治理控制面板来执行模型治理功能,包括审查合规验证模型和监控风险缓解情况。
开始使用
Well-Architected 支柱
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
本指南中使用的服务共同为整个 ML 生命周期提供了全面、自动化和可扩展的基础架构。具体而言,SageMaker 提供了完全托管的 ML 环境,简化了从数据准备到部署和监控的工作流程。Lambda 和 EventBridge 支持无服务器计算和事件驱动的自动化,减少了手动干预和潜在错误。DynamoDB 为模型元数据提供了灵活的数据库,而 QuickSight 则提供了用于监控和治理的仪表板功能。Amazon S3 和 Amazon ECR 为模型构件和容器镜像提供可扩展的存储产品,有助于确保在需求增长时保持一致的性能。最后,API Gateway 可管理模型调用的 API 的创建和管理,从而促进与其他系统的顺利集成。
-
安全性
通过提供访问控制、数据保护和安全构件存储机制,本指南中使用的服务可协同发挥作用,保护您的信息和系统。例如,SageMaker 为 ML 工作流程提供内置安全功能,包括笔记本实例和模型端点的隔离。AWS 身份和访问管理(IAM)支持对 AWS 服务进行精细的访问控制和权限管理。Amazon S3 为模型构件提供安全的对象存储和加密功能。最后,Amazon ECR 通过访问控制和传输中的加密,为容器映像提供安全存储。
-
可靠性
为本指南选择的服务旨在从容地应对不同的工作负载和潜在故障。例如,SageMaker 的托管基础设施减少了维护 ML 环境的运营负担。Lambda 的无服务器特性有助于确保计算资源始终可用,无需手动扩展。DynamoDB 的分布式架构为模型元数据存储提供了高可用性。此外,Amazon S3 的设计耐用性达到 99.999999999%(11 个 9),可保护您的关键模型构件。最后,Amazon ECR 有助于确保容器镜像始终可供部署,而 API Gateway 通过稳定的模型访问来应对流量峰值。
-
性能效率
SageMaker 为模型训练和推理提供高性能基础架构,能够自动选择最有效的实例类型。Lambda 支持通过近乎即时的扩展快速执行函数。DynamoDB 可为任何规模的数据检索提供低于 10 毫秒的延迟。Amazon S3 提供对模型构件的高吞吐量访问。Amazon ECR 确保快速、一致地部署容器镜像。而且 API Gateway 为模型调用提供低延迟 API 管理。这些服务共同为 ML 管道的各个方面提供了优化、可扩展和低延迟的方法。
-
成本优化
通过使用无服务器和托管服务,您的组织可以避免与拥有和维护物理基础设施相关的资本支出。此类服务的一个例子是 SageMaker,它提供自动扩缩功能,以便在模型训练和推理期间有效利用资源。Lambda 提供无服务器模型,这意味着您无需为空闲计算时间付费,这对于 ML 管道中的间歇性工作负载尤其有利。此外,DynamoDB 还包括按需容量模式,在该模式下,数据库可自动扩展和缩减,从而为不可预测的工作负载优化成本。
-
可持续性
高效、可扩展和无服务器计算选项让您可优化资源使用,最大限度地减少运行云工作负载对环境造成的影响。SageMaker 提供托管 ML 基础架构,可根据需求自动扩展资源,从而减少空闲容量。Lambda 提供无服务器计算,仅在执行函数时消耗资源。最后,DynamoDB 是一个可自动扩展的无服务器数据库,可确保资源的有效利用。
相关内容
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指南是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。