SageMaker Lakehouse 定价
Amazon SageMaker Lakehouse 可统一您在 Amazon Simple Storage Service(Amazon S3)数据湖和 Amazon Redshift 数据仓库中的所有数据,帮助您在单个数据副本上构建强大的分析和 AI/ML 应用程序。SageMaker Lakehouse 让您可以灵活地使用所有与 Apache Iceberg 兼容的工具和引擎访问和查询数据。可通过定义精细权限来保护湖仓中的数据,这些权限一致地应用于所有分析和机器学习(ML)工具和引擎。除这些优势外,还可通过零 ETL 集成访问运营数据库和应用程序中的数据,并通过湖仓中的联合查询功能访问第三方来源的数据。
可以直接从 Amazon SageMaker Unified Studio(预览版)访问 SageMaker Lakehouse。在 SageMaker Lakehouse 中,名为目录的逻辑容器会组织不同来源的数据。每个目录代表数据仓库和第三方数据库等现有数据来源的数据,或者直接在湖仓中创建的数据,用于将数据存储在 Amazon S3 或 Amazon Redshift 托管存储(RMS)中。查询引擎可以连接到这些目录,并使用 Apache Iceberg API 就地访问数据。您可以使用任何兼容 Apache Iceberg 的引擎,例如 Apache Spark、Trino、Amazon Athena 或 Amazon EMR,以 Apache Iceberg 表的形式访问数据,并查询来自其第一方和第三方查询引擎的数据。同样,目录作为数据库安装在第一方查询引擎中,例如 Amazon Redshift 集群和工作组。通过 Java 数据库连接(JDBC)或 Amazon Redshift 查询编辑器 V2 从查询工具连接到数据库,使用 SQL 进行查询。
SageMaker Lakehouse 包含以下基础组件。您需要为湖仓上使用的组件付费。
SageMaker Lakehouse 元数据:使用 AWS Glue Data Catalog 将数据定义按目录、数据库和表的逻辑层次结构进行组织。
- 目录:一种逻辑容器,用于保存数据存储的对象,例如架构、表、视图或 Amazon Redshift 中的实体化视图。您可以在目录下嵌套目录,以匹配您带到湖仓的数据来源中的层次结构级别。
- 数据库:数据库可用于组织湖仓中的表和视图等数据对象。
- 表和视图:表和视图是数据库中的数据对象,描述如何访问基础数据,例如架构、分区、存储位置、存储格式和用于访问数据的 SQL 查询。
可以从 AWS Glue API 访问 SageMaker Lakehouse 元数据。对于元数据存储和 API 请求,适用 AWS Glue Data Catalog 元数据定价,包括 AWS Free Tier。有关更多信息,请访问 AWS Glue 定价。
数据存储和访问:使用 SageMaker Lakehouse,您可以在 Amazon S3 或 RMS 中读取和写入数据。根据您选择在湖仓中存储数据的存储类型,访问底层存储将产生额外的存储和计算成本。访问 AWS Glue 定价,了解有关存储类型的存储和计算定价的更多信息。
统计数据和 Apache Iceberg 表维护:在 SageMaker Lakehouse 中,您可以自动收集 Amazon S3 中的数据湖表的统计数据,以加快查询执行速度,也可以自动维护 Apache Iceberg 表(例如压缩),以优化 Apache Iceberg 表的存储布局。启用这些功能后,将产生额外费用。有关更多信息,请访问 AWS Glue 定价。
权限:SageMaker Lakehouse 中的精细权限由 AWS Lake Formation 提供支持。SageMaker Lakehouse 的权限可免费获取。如需了解更多信息,请访问 Lake Formation 定价。
零 ETL 集成成本
Amazon SageMaker 与应用程序实现零 ETL 集成,无需构建和管理提取、转换、加载(ETL)管道。支持的应用程序包括 Salesforce、ServiceNow、Zendesk 等。
这些集成为您提供灵活性,让您可以选择应用程序中的特定数据表,以自动复制到 Amazon Redshift。这种灵活性使您能够跨多个应用程序和数据来源运行统一的分析。AWS 不对零 ETL 集成收取额外费用。您需要为用于创建和处理在零 ETL 集成过程中创建的变更数据的现有资源付费。这包括用于存储复制数据的额外 Amazon Redshift 存储、用于处理数据复制的计算资源(或 Amazon Redshift Serverless 上的 RPU)以及将数据从源移动到目标的跨可用区数据传输成本。通过零 ETL 集成对数据变更进行的持续处理无需另行付费。有关更多信息,请访问 Amazon Aurora 定价、Amazon Relational Database (Amazon RDS) for MySQL 定价、Amazon DynamoDB 定价和 AWS Glue 定价。