Amazon S3 Tables

随着数据湖的扩展,优化查询性能和成本

在 S3 中大规模存储表格数据

Amazon S3 Tables 提供首款内置 Apache Iceberg 支持的云对象存储,并简化大规模存储表格数据。S3 Tables 专门针对分析工作负载进行了优化,与存储在通用 S3 存储桶中的自管理 Iceberg 表相比,查询性能提高多达 3 倍,每秒事务数提高多达 10 倍。由于 S3 Tables 支持 Apache Iceberg 标准,因此可以通过常用的 AWS 和第三方查询引擎(包括 Amazon Athena、Redshift、EMR 和 Apache Spark)轻松查询您的表格数据。使用 S3 Tables,将每日购买交易、流式传感器数据或广告曝光量等表格数据在 S3 中存储为 Iceberg 表格,并使用自动表格维护随着数据的变化优化性能和成本。 阅读博客了解更多信息

优势

无论您是刚入门还是要在 Iceberg 环境中管理数千个表,都可以随心简化任何规模的数据湖。

与将 Iceberg 表存储在通用 S3 存储桶中相比,查询性能最多可高 3 倍,每秒事务数最多可高 10 倍。

执行连续的表维护任务(例如压缩、快照管理和未引用文件删除),以随着时间的推移自动优化查询效率和成本。

通过 S3 Tables(预览版)与 AWS Glue Data Catalog 的集成,访问高级 Iceberg 分析功能,并使用常用的 AWS 服务(如 Amazon Athena、Redshift 和 EMR)查询数据。S3 Tables 与常用的开源工具兼容。

将表创建为一级 AWS 资源,并应用权限,以轻松管理对表的访问。

工作原理

S3 Tables 提供专门构建的 S3 存储,用于以 Apache Parquet 格式存储结构化数据。在表存储桶中,您可以直接在 S3 中将表创建为一级资源。这些表可以使用在基于身份或资源的策略中定义的表级权限进行保护,并且可由支持 Apache Iceberg 标准的应用程序或工具进行访问。当您在表存储桶中创建表时,S3 中的基础数据将存储为 Parquet 数据。然后,S3 会维护必要的元数据,使应用程序可以查询该 Parquet 数据。表存储桶包括一个客户端库,查询引擎使用该库来导航和更新表存储桶中表的 Iceberg 元数据。此库与用于表操作的更新的 S3 API 结合使用,允许多个客户端安全地读取和写入表中的数据。随着时间的推移,S3 会通过重写或“压缩”对象来自动优化基础 Parquet 数据。压缩可以优化 S3 上的数据,以提高查询性能并最大限度地降低成本。 请参阅用户指南,了解更多信息

Amazon S3 Tables 演示视频

客户

  • Genesys

    Genesys 是人工智能驱动体验编排领域的全球云领导者。通过先进的人工智能、数字和劳动力参与度管理功能,Genesys 帮助全球 100 多个国家/地区的 8000 多个组织提供个性化、感同身受的客户和员工体验,同时受益于业务灵活性和成果的提高。

    Amazon S3 Tables 是我们数据架构的变革性补充,尤其是其托管 Iceberg 支持,可为不同的数据分析需求有效创建实体化视图层。S3 可自动处理压缩、快照管理和未引用文件清理等关键维护任务,从而使这项产品能够消除额外的表管理层,帮助 Genesys 简化复杂的数据工作流。直接从 S3 读取和写入 Iceberg 表的功能将帮助我们提高性能,并为在整个分析生态系统中无缝集成数据创造新的可能性。这种互操作性与性能增强相结合,使 S3 Tables 成为我们未来战略的重要组成部分,为我们提供快速、灵活和可靠的数据见解。

    Genesys 首席技术官 Glenn Nethercutt
  • SnapLogic

    SnapLogic 是以人工智能为主导的集成领域的先驱。适用于生成式集成的 SnapLogic 平台可加速整个企业的数字化转型,以设计、部署和管理人工智能代理和集成,从而实现任务自动化、实时决策并轻松集成到现有工作流程中。

    Amazon S3 Tables 内置 Apache Iceberg 支持和 AWS 分析服务集成,可帮助企业优化数据分析成本,同时改变企业将业务数据用于分析、合规性和人工智能计划的方式。通过自动执行复杂的数据管理任务并提供完整的数据变更审计跟踪记录,团队可以即时分析历史数据,保持合规性,加速业务见解的取得,同时显著降低技术成本。

    SnapLogic 企业架构师 Dominic Wellington
  • Zus Health

    Zus 是共享健康数据平台,旨在通过 API、嵌入式组件和直接 EHR 集成提供易于使用的患者数据,从而加快医疗保健数据的互操作性。

    作为一家处理大量频繁变化的患者数据的医疗保健公司,我们决定投资 Apache Iceberg,因为它解决了 Apache Hive 在分区和自动化方面的许多痛点,并具有更广泛的互操作性。我们使用 Iceberg 所面临的最大挑战之一是理解和管理表优化。这就是 S3 Tables 和托管优化功能让我们兴奋不已的原因。减轻开发人员在表维护方面的开销,使我们能够更加专注于为客户提供高质量的数据和有价值的见解。

    Zus Health 咨询软件工程师 Sonya Huang