本指引将展示如何管理和共享数据,以帮助推动贵组织的可持续发展计划。随着用于跟踪贵组织对环境的影响的数据来源越来越多,跨多个团队发现、评估这些资产的有效性并从中提取价值变得越来越具有挑战性。本指引为企业数据管理提供了一个简化的框架。它考虑了数据质量、安全性、编目和沿袭,使您能够无缝共享适用的数据集。借助更可靠的数据,各个组织可以解决多种使用案例,例如更准确地计算他们估计的碳排放量、评估气候风险或者了解组织对生物多样性的影响。通过集中访问关键数据资产,您可以做出明智的决策,以通过适当的数据治理更高效地实现环保目标。
请注意:[免责声明]
架构图
-
概述
-
用户访问权限
-
数据发现
-
自动数据资产注册
-
概述
-
此架构图说明了应用程序如何使用和生成数据资产,并结合关键数据管理概念,在您的整个组织中快速发现、共享数据并从中提取价值。后续选项卡涵盖用户访问权限、数据发现以及为可持续性使用案例量身定制的自动数据资产注册工作流。
第 1 步
将数据存储在 AWS 内部和/或外部的各种类型的数据存储空间中。这些数据存储空间包含代表物理数据对象(例如数据库表或文件)的数据资产。这些数据存储空间在数据编织架构中同时存储源数据集和目标数据集。第 2 步
自动将技术元数据导入到在实施数据编织架构之前就已存在的数据资产的数据目录中。第 3 步
数据所有者在数据目录中保留他们的数据资产的业务元数据,以使用业务上下文丰富数据。例如数据集列、标签、域的业务上下文或者整个企业的业务词汇表术语。第 4 步
数据使用者使用技术元数据和/或业务元数据在数据目录中搜索数据资产。与数据质量和数据沿袭相关的元数据在如何使用数据资产方面建立信任。第 5 步
数据使用者请求访问数据所有者的相关数据资产,随后,数据所有者批准或拒绝这一请求。第 6 步
这些数据产品执行导出、转换、加载(ETL)以及数据分析和数据质量操作,以创建新的精选数据资产,从而为数据使用者提供数据驱动型使用案例。第 7 步
将数据产品创建的数据资产与相应的元数据一起注册到数据目录中。 -
用户访问权限
-
此架构图显示了如何管理用户对数据目录的访问权限。
第 1 步
AWS IAM Identity Center 管理 Amazon DataZone 和其他 API 的所有用户。第 2 步
Amazon API Gateway 使用一个 Amazon Cognito 授权方。相应的用户池将 IAM Identity Center 用作它的身份提供者。第 3 步
Amazon DataZone 直接与 IAM Identity Center 集成,以进行用户管理。 -
数据发现
-
此架构图显示了如何搜索、发现和请求访问数据目录中的数据资产。
第 1 步
用户通过 Amazon DataZone 中的搜索功能浏览数据目录。可以通过资产的相关元数据搜索资产。第 2 步
每个资产的数据沿袭都存储在 OpenLineage Marquez 的一个实例中。Marquez 部署在由应用程序负载均衡器管理的 Amazon Elastic Compute Cloud(Amazon ECS)容器上。用户可以通过 Marquez 查看资产的数据沿袭。第 3 步
从数据目录中,数据使用者请求以只读方式访问数据资产所有者拥有的相应数据集。第 4 步
资产所有者批准或拒绝对他们发布到目录中的个别资产的订阅请求。第 5 步
资产所有者批准用户的订阅请求之后,用户可以通过 Amazon Athena(对于被注册为 Amazon Glue 表的资产)或 Amazon Redshift Data API(对于 Amazon Redshift 表)访问资产。 -
自动数据资产注册
-
此架构图显示了如何通过分析、转换、质量断言和沿袭跟踪来管理数据资产注册。
第 1 步
将数据放置到 Amazon Simple Storage Service(Amazon S3)或 Amazon Redshift 中。
第 2 步
数据所有者或数据产品在 Hub 账户中调用一个由 AWS Lambda 支持的 API Gateway API。API 正文包含有关数据位置、转换逻辑、分析规格和未来步骤所需的数据质量断言的信息。API 将事件写入到一个 Amazon EventBridge 事件总线中,此总线会将其复制到分支账户中的一个事件总线中。
第 3 步
分支账户中的事件调用一个 AWS Step Functions 工作流。此工作流创建一个指向 Amazon Redshift 或 Amazon S3 数据来源的 AWS Glue 连接。
第 4 步
AWS Glue DataBrew 通过一个配方作业执行数据转换。第 5 步
一个 AWS Glue 爬网程序推断所生成的数据集的架构,并创建一个 Glue 表。第 6 步
一个 AWS Glue DataBrew 分析作业根据此表得出分析统计信息。第 7 步
AWS Glue 使用用户定义的断言评估数据质量。第 8 步
在事件中总结所生成的数据沿袭,并通过 EventBridge 将其发送回中心账户。第 9 步
中心账户中的 EventBridge 事件总线调用另一个 Step Functions 工作流。第 10 步
创建和运行一个数据来源,以便将新的资产导入到 Amazon DataZone 中。第 11 步
将此资产的沿袭发布到 EventBridge,后者调用一个 Amazon ECS 部署,以便在 OpenLineage Marquez 的一个部署中注册此沿袭。
Well-Architected 支柱
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
Amazon CloudWatch 提供集中式监控和可观测性,可以跟踪各项服务的运营指标和日志。通过全面了解您工作负载的运行状况和性能,可以帮助您发现问题和解决问题,因此使您能够持续改进流程和程序,以实现高效运营。
-
安全性
Cognito、AWS Identity and Access Management(IAM)和 IAM Identity Center 可以帮助您实施安全的身份验证和授权机制。Cognito 为应用程序 API 提供用户身份验证和授权,IAM 策略和角色根据最低权限原则控制对资源的访问。 IAM Identity Center 简化了本指引中的各个组件的用户身份管理,实现了集中式身份管理。
-
可靠性
应用程序负载均衡器、Lambda、EventBridge 和 Amazon S3 协同工作,以使您的工作负载能够正确、一致地执行它们的预期功能。例如,应用程序负载均衡器将流量分配到应用程序容器,以提供高可用性。EventBridge 跨账户复制事件以实现可靠的事件交付,Lambda 的自动扩缩功能可以不间断地处理不断变化的工作负载。作为根数据来源,Amazon S3 提供极具持久性和可用性的存储。
-
性能效率
为本指引选择的服务是能够帮助您监控性能和保持高效工作负载的最佳服务。具体而言,Athena 和 Amazon Redshift 数据 API 可以高效地查询数据资产。AWS Glue DataBrew 和爬网程序可以自动执行数据转换和编目,因此提高了整体效率。Amazon Redshift Serverless 可弹性扩展计算资源,无需过度预置资源即可实现高性能数据处理。最后,Amazon S3 提供了高数据吞吐量,可实现高效查询。
-
成本优化
为了优化成本,本指引使用根据需求自动扩展的无服务器服务,可确保您只为所使用的资源付费。例如,EventBridge 无需使用基于轮询的架构,因此降低了计算成本,而 Amazon Redshift Serverless 根据需求自动扩展计算,而且只对处理过程中消耗的资源收费。
-
可持续性
本指引中的无服务器服务协同工作,减少了对始终可用的基础设施的需求,因此降低了工作负载对环境产生的整体影响。例如,Amazon Redshift Serverless 可自动扩展以满足相应的需求,而且只预置必要的计算资源并最大限度地减少空闲资源及其相关能耗。
相关内容
利用 AWS 可持续性数据编织架构和 Accenture 简化您的 ESG 报告
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。