亚马逊AWS官方博客

Category: Analytics

使用 DolphinScheduler 进行 EMR 任务调度

此篇文章将介绍 DolphinScheduler 安装部署,以及在 DolphinScheduler 中进行作业编排,以使用 python 脚本的方式执行 EMR 的任务调度,包括创建集群、集群状态检查、提交 EMR Step 作业、EMR Step 作业状态检查,所有作业完成后终止集群。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (4) – Clustering

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook“探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (3) – Compaction

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook“探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (2) – File Sizing

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook“探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。

使用 Amazon Athena 和 Amazon S3 ,助力企业构建低成本高性能日志分析平台

Amazon Athena 本身也具有一定的 ETL 能力,并且相对其他 ETL 服务更加简单易用,只需有 SQL 编写经验即可实现数据的 ETL 任务。本文利用这一特性,对日志数据进行清洗建模,并将数据压缩后,按查询关键字进行分区存储在 Amazon S3 上,实现了一种低成本、高性能的日志数据分析方案,解决了企业客户日志分析成本高的痛点。

Amazon SES 实时日志实践指南

本文将分享如何快速上手采用 Amazon SES 实现邮件发送,并重点介绍通过 Amazon OpenSearch 展示 Amazon SES 实时日志监控仪表盘;使用 Amazon SES 的日志功能,将日志数据导入 Amazon OpenSearch 集群中,并利用 OpenSearch 内置丰富的仪表盘以监控 SES 的邮件传递情况。

Amazon Athena 中调用 Amazon Lambda 实现的 UDF 进行数据解密的效率分析

对企业数据进行在线分析是数据分析的重要手段,借助 Amazon Athena 可以使用标准 SQL 直接查询分析存储于 Amazon S3 中的数据,使分析更加便捷。在 Athena 中,可以通过 Athena 调用用户自定义函数 UDF 对敏感 PII 数据进行加解密。但是其本身并不支持内置的自定义函数,而是将这些功能外置到 Amazon Lambda 中。