Amazon SageMaker Lakehouse 可统一您在 Amazon Simple Storage Service(Amazon S3)数据湖和 Amazon Redshift 数据仓库中的所有数据,帮助您在单个数据副本上构建强大的分析和 AI/ML 应用程序。SageMaker Lakehouse 让您可以灵活地使用所有与 Apache Iceberg 兼容的工具和引擎访问和查询数据。通过定义权限保护湖仓中的数据,这些权限在所有分析和机器学习(ML)工具和引擎中强制执行。通过零 ETL 集成,将运营数据库和应用程序中的数据近实时地导入湖仓。此外,通过跨第三方数据来源的联合查询功能访问和查询数据。
SageMaker Lakehouse:
a) 通过统一访问 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据,减少数据孤岛。通过无代码或低代码提取、转换、加载(ETL)管道,可以近实时地将运营数据库和应用程序中的数据提取到您的湖仓中,用于分析和机器学习。您还可以使用数百个连接器和 13 种联合查询功能,以访问 AWS 和 AWS 外部来源的数据。
b) 让您可以灵活地从与 Apache Iceberg 兼容的各种 AWS 服务以及开源和第三方工具和引擎中就地访问和查询所有数据。您可以使用自己选择的分析工具和引擎,例如 SQL、Apache Spark、商业智能(BI)和人工智能/机器学习工具,并与存储在 Amazon S3 或 Amazon Redshift 中的单一数据副本进行协作。
c) 通过内置访问控制机制提高企业安全性,该机制可在从集成的 AWS 服务(如 Amazon Redshift、Amazon Athena 或 Amazon EMR 或与 Apache Iceberg 兼容的第三方引擎)访问数据时确保数据的安全。
可以直接从 Amazon SageMaker Unified Studio(预览版)访问 SageMaker Lakehouse。在 SageMaker Lakehouse 中,名为目录的逻辑容器会组织不同来源的数据。每个目录代表来自现有数据来源(如 Amazon Redshift 数据仓库、数据湖或数据库)的数据。可以直接在湖仓中创建新目录,以便在 Amazon S3 或 Amazon Redshift Managed Storage(RMS)中存储数据。SageMaker Lakehouse 中的数据可通过 Apache Spark、Athena 或 Amazon EMR 等与 Apache Iceberg 兼容的引擎访问。此外,这些目录可以作为数据库在 Amazon Redshift 数据仓库中找到,从而让您能够使用 SQL 工具并分析湖仓数据。
SageMaker Lakehouse 通过两种功能统一对数据的访问控制:1) SageMaker Lakehouse 允许您定义精细权限。这些权限由 Amazon EMR、Amazon Athena 和 Amazon Redshift 等查询引擎强制执行。2) SageMaker Lakehouse 允许您就地访问数据,无需再复制数据。您可以在 SageMaker Lakehouse 中维护单一数据副本和一组访问控制策略,从而受益于统一的精细访问控制。
SageMaker Lakehouse 建立在 AWS Glue Data Catalog、Lake Formation 和 Amazon Redshift 的多个技术目录之上,提供跨数据湖和数据仓库的统一数据访问。SageMaker Lakehouse 使用 AWS Glue Data Catalog 和 Lake Formation 来存储表定义和权限。Lake Formation 精细权限适用于 SageMaker Lakehouse 中定义的表。您可以在 AWS Glue Data Catalog 中管理表定义,并定义精细权限(如表级、列级和单元格级权限),以确保数据安全。此外,使用跨账户数据共享功能,您可以启用零拷贝数据共享,在协作过程中确保数据安全。
符合。访问 SageMaker Lakehouse 需要使用开源 Apache Iceberg 客户端库。使用第三方或自主管理开源引擎(如 Apache Spark 或 Trino)的客户需要在其查询引擎中包含 Apache Iceberg 客户端库,才能访问 SageMaker Lakehouse。
能。使用 Apache Iceberg 客户端库,您可以从 AWS 服务(如 Amazon EMR、AWS Glue、Amazon Athena 和 Amazon SageMaker 或第三方 Apache Spark)上的 Apache Spark 引擎读取数据并写入现有的 Amazon Redshift。不过,您必须对表具有适当的写入权限,才能向表中写入数据。
能。您可以使用自己选择的引擎(如 Apache Spark),在多个数据库中将 Amazon S3 上的数据湖表与 Amazon Redshift 数据仓库中的表进行连接。
不需要。使用 SageMaker Lakehouse 无需迁移数据。SageMaker Lakehouse 让您能够使用 Apache Iceberg 开放标准就地访问和查询数据。您可以直接访问 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据。通过可用的零 ETL 集成,可将操作数据库和应用程序中的数据近实时地摄取到 Lakehouse 中,而无需维护基础设施或复杂的管道。您还可以使用联合查询功能就地访问数据。除此之外,您还可以使用数百个 AWS Glue 连接器与现有数据来源集成。
如果您已经是 Amazon Redshift 用户,您可以通过几个简单的步骤在 SageMaker Lakehouse 注册 Amazon Redshift 数据仓库,而无需迁移数据。按照开发人员指南中的步骤操作。
如果您已使用 AWS Glue Data Catalog 配置 Amazon S3 数据湖,则无需进行任何更改。
SageMaker Lakehouse 支持与 Amazon DynamoDB、Amazon Aurora、Amazon RDS for MySQL 以及八大应用程序(Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 广告、Instagram 广告、Zendesk 和 SAP)的零 ETL 集成。
您可以借助 AWS Glue,通过 Amazon SageMaker 数据处理中的 AWS Glue 控制台配置和监控零 ETL 集成。提取数据后,您可以访问和查询与 Apache Iceberg 兼容的查询引擎中的数据。有关更多详细信息,请访问零 ETL 集成文档页面。
要了解有关定价的更多信息,请访问 SageMaker Lakehouse 和 AWS Glue 定价页面。
有关详细信息,请访问 SageMaker Lakehouse 定价。
SageMaker Lakehouse 现已在以下区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(香港)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(斯德哥尔摩)和南美洲(圣保罗)。
符合。SageMaker Lakehouse 将元数据存储在 AWS Glue Data Catalog 中,并提供与 Amazon Glue SLA 相同的 SLA。
要开始使用,您可以在 SageMaker Unified Studio(预览版)上使用企业(例如 Okta)凭证登录 SageMaker 域。在 SageMaker Unified Studio 中,只需简单几步,管理员即可通过选择特定的项目配置文件来创建项目。然后,您可以选择一个项目,以使用 SageMaker Lakehouse。选择项目后,您可以在一个地方统一查看数据、查询引擎和开发人员工具。然后,数据工程师和数据分析师等用户就可以使用自己选择的工具查询数据。例如,当数据工程师使用笔记本发出 Spark 命令以列出表时,他们会发现他们有权访问的所有数据仓库和数据湖表。然后,他们可以运行命令,将数据读写到物理存储在 Amazon S3 数据湖或 Amazon Redshift 数据仓库中的表中。同样,当数据分析师从 SQL 编辑器运行 Redshift SQL 命令时,他们也能获得相同的统一数据视图,并能向这些表读写数据。使用您的首选工具(SQL 编辑器或笔记本),您可以在 Amazon S3 或 Amazon Redshift 中创建新表。查询 Amazon Redshift 实体化视图,以提升数据湖表的性能。除 SageMaker Unified Studio 以外,还可通过 AWS 管理控制台、AWS Glue API、AWS 命令行界面(AWS CLI)或 AWS SDK 访问 SageMaker Lakehouse。有关更多详细信息,请访问文档页面。