亚马逊AWS官方博客

Category: Analytics

一分钟从零构建数据湖,S3 Tables 究竟有啥魔力?

2024 年,亚马逊云科技发布了 S3 Tables,内置对 Apache Iceberg 的支持,旨在优化大规模表格数据的存储和查询性能。S3 Tables 通过自动化的表维护和与亚马逊云科技的分析服务的无缝集成,帮助企业更快速地构建数据湖,简化权限管理,并提升查询性能和事务处理能力,满足现代数据驱动型业务的需求。本文将探讨 S3 Tables 技术的应用场景及其对业务的收益及最佳实践,提供生产中可参考的价值。

使用 FluentBit 抽取日志到 AOS 中不同索引 Index

FluentBit 是一款轻量级的日志处理器,常用于从各种数据源收集日志并将其发送到不同的目标,包括 AWS OpenSearch Service (AOS)。在真实的业务场景中往往存在多种类型的日志,例如系统日志、安全日志、应用日志等。不同类型的日志需要隔离保存并实现访问控制,在 AOS 中可以使用索引 Index 的设计实现数据的分类存储、访问控制以及生命周期管理。

使用 Amazon Managed Service for Apache Flink 进行 Apache Paimon CDC 数据摄取

Apache Paimon 是一个开源的开放数据湖表格式,提供强大的 CDC Ingestion 功能。在亚马逊云科技云中,可以向 Amazon EMR 集群中提交 CDC Ingestion Job 来使用 Apache Paimon CDC 的Ingestion 功能。本文将研究和实现使用 Amazon Managed Service for Apache Flink 以 Serverless 方式来运行 Apache Paimon CDC Ingestion Job。