亚马逊AWS官方博客
Category: Analytics
使用 Transformer 和 Amazon OpenSearch Service 构建基于列的语义搜索引擎
介绍了如何使用 Transformers 和 Amazon OpenSearch Service 构建基于表格列的语义搜索引擎
使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序
介绍如何使用 Amazon Redshift Serverless 和 Toucan 构建数据讲述应用程序
CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer
Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类,自 `0.10.0` 版开始,Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面,越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类, 一个是“开箱即用”的 Spark 运行环境,两者结合在一起,仅通过一条命令,就可以轻松实现 CDC 数据入湖。
使用 OpenTelemetry 实现现代化应用可观测性指南
博客重点讲解了在 Amazon EKS 环境下使用开源组件实现全栈可观测性的实践,包括日志传输、性能指标采集、应用跟踪和告警设置等。通过一个 Spring Boot 样例程序,展示了如何使用 OpenTelemetry 和 Amazon 的托管服务快速部署和设置跟踪、日志和指标等观测功能。
基于 Centralized Logging with OpenSearch 构建全球日志中心
基于 Loghub 实现跨区域构建全球一体化日志中心
利用 Cloudformation 快速部署简单易用的 CDN/WAF 日志服务
本文介绍了利用 CloudFormation 的能力来封装 AWS 相关服务,并在部署时只需输入相应参数,即可快速搭建满足 CDN 或者 WAF 日志分析需求的服务架构。
使用 Flink Hudi 处理变更数据流并通过 Redshift Spectrum 进行数据分析实践
这是一个典型的数据分析场景,分散在不同业务数据库里的表格数据,需要汇总到数据湖或数据仓库中进行统一分析。运营人员希望尽可能的实时查询到这些数据,他们需要第一手的订单数据以便快速做出决策。 为实现这类场景需求,有很多种办法,本文介绍通过可视化交互开发平台 Zeppelin 上使用 Flink SQL 实现 ETL 任务,并支持近实时高并发 Upsert 到数据湖,利用 Redshift Spectrum 进行快速分析查询。
利用 serverless 服务布署非组织且多账户的 Health 事件监控面板
对于亚马逊云科技的客户及合作伙伴,它们的账户众多且管理权限复杂,同时由于每月就会有数百甚至数千条通告信息,集中查看 Health 事件并定制化展示和分类是具有价值的,这里展示如何利用无服务器服务自动化布署并收集 Health 状态信息,同时定制化适合自己业务需求的监控面板,以此来准确掌控 Health 事件信息。
Amazon DynamoDB Flink SQL 实时计算实践
在实时计算场景下,使用 Flink 结合 HBase 或 Redis 做维表关联计算可以提高计算效率和准确性。例如,在广告投放场景下,可以使用 Flink 结合 HBase 或 Redis 做维表关联计算,从而更加精准地对用户进行定向广告投放和个性化推荐。Amazon DynamoDB 是一种全托管的 NoSQL 数据库服务,提供快速而可预测的性能,能够实现无缝扩展。DynamoDB 可以免除操作和扩展分布式数据库的管理工作负担,因而无需担心硬件预置、设置和配置、复制、软件修补或集群扩展等问题。
使用 DynamoDB 简化 MWAA(Airflow)任务调度开发
MWAA 是一项适用于 Apache Airflow 的托管式编排服务,让您能够在云中大规模设置和操作数据管道。本文介绍了如何使用亚马逊云科技 DynamoDB 简化 MWAA 开发工作,并且提供了 Redshift 调用的实现逻辑参考,提升用户生产效率。