Analytics | 亚马逊AWS官方博客

快速搭建 AWS Glue ETL 开发环境

本文将展示如何自建Glue ETL的开发环境，以满足快速开发和调试的需求。

将 Amazon DynamoDB 数据流式传输到集中式数据湖

本文演示了使用 Amazon Kinesis Data Streams、Amazon Lambda 和 Amazon Kinesis Data Firehose 通过同一 AWS region中的 VPC 终端节点将 DynamoDB 表流式传输到 Amazon Simple Storage Service (Amazon S3) 存储桶的两个常见案例。

Amazon EC2 Spot 实例在AWS EMR 集群中的成本优化应用实践

业务数据的处理和分析通常需要比较大规模的EMR集群和更多的节点数来处理，本文介绍如何通过合理配置和使用Spot 实例类型来大幅降低EMR集群成本，特别对于跑特定任务的瞬时集群来说，Spot 实例的使用是特定的应用场景，如何选型和配置更是成本优化的关键之处。

通过使用 Amazon Graviton2 提升 EMR 的性价比

通过使用Graviton2实例，能更好的提升EMR集群的性能，降低总体拥有成本，提升EMR平台的性价比。

在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较

Amazon Athena 分区投影相关的功能，透过分区投影中的值做匹配计算，得出位置，减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移，Glue 也推出了分区索引相关的功能，可以方便客户与其他服务，如EMR、Glue ETL、Redshift Specturm… 等等，做元数据的储存与查询。许多人会有一个疑问是，Athena分区投影与 Glue分区索引效能再一定的分区数量时的比较，也是这篇部落格会探讨的议题。

远程调度 EMR 集群的常见方式总结

亚马逊云科技上的 EMR 大数据平台提供了计算存储分离的弹性架构（计算在虚拟机上，存储在s3上），基于此，常见的如流式处理，即时查询等作业可以单独运行在一个长期开启的EMR集群之中；而对于定时，跑批等业务可以运行在动态启停的EMR集群之中。对于后者来讲，由于其动态启停的特性，我们往往需要外置任务调度器于EMR集群之外。在上述的背景之下，我们会在接下来的文章之中对于当调度器外置之后,常见的远程调度EMR集群的方式，相应的优缺点，相关的例子等方面进行探讨

Amazon Glue 实现 JDBC 数据源增量数据加载

Amazon Glue实现JDBC数据源增量数据加载

使用 Amazon Glue 来调度 Amazon Redshift 跑 TPC-DS Benchmark

提供CDK模版部署Glue调度Redshift环境，并进行TPC-DS benchmark

2021年亚马逊云科技 re:Invent 全球大会分析专题与会者指南

re:Invent的分析专题提供各种数据分析相关演说与会议，亚马逊云科技分析专家及其客户将在这些会议上发表演讲。

使用 Amazon Redshift 构建分层数据仓库分析 OLTP 数据

Instruct how to build a hierarchical data warehouse in Redshift

Category: Analytics