亚马逊AWS官方博客
Category: Analytics
快速搭建 AWS Glue ETL 开发环境
本文将展示如何自建Glue ETL的开发环境,以满足快速开发和调试的需求。
将 Amazon DynamoDB 数据流式传输到集中式数据湖
本文演示了使用 Amazon Kinesis Data Streams、Amazon Lambda 和 Amazon Kinesis Data Firehose 通过同一 AWS region中的 VPC 终端节点将 DynamoDB 表流式传输到 Amazon Simple Storage Service (Amazon S3) 存储桶的两个常见案例。
Amazon EC2 Spot 实例在AWS EMR 集群中的成本优化应用实践
业务数据的处理和分析通常需要比较大规模的EMR集群和更多的节点数来处理,本文介绍如何通过合理配置和使用Spot 实例类型来大幅降低EMR集群成本,特别对于跑特定任务的瞬时集群来说,Spot 实例的使用是特定的应用场景,如何选型和配置更是成本优化的关键之处。
通过使用 Amazon Graviton2 提升 EMR 的性价比
通过使用Graviton2实例,能更好的提升EMR集群的性能,降低总体拥有成本,提升EMR平台的性价比。
在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较
Amazon Athena 分区投影相关的功能,透过分区投影中的值做匹配计算,得出位置,减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移,Glue 也推出了分区索引相关的功能,可以方便客户与其他服务,如EMR、Glue ETL、Redshift Specturm… 等等,做元数据的储存与查询。许多人会有一个疑问是,Athena分区投影 与 Glue分区索引效能再一定的分区数量时的比较,也是这篇部落格会探讨的议题。
远程调度 EMR 集群的常见方式总结
亚马逊云科技上的 EMR 大数据平台提供了计算存储分离的弹性架构(计算在虚拟机上,存储在s3上),基于此,常见的如流式处理,即时查询等作业可以单独运行在一个长期开启的EMR集群之中;而对于定时,跑批等业务可以运行在动态启停的EMR集群之中。对于后者来讲,由于其动态启停的特性,我们往往需要外置任务调度器于EMR集群之外。在上述的背景之下,我们会在接下来的文章之中对于当调度器外置之后,常见的远程调度EMR集群的方式,相应的优缺点,相关的例子等方面进行探讨
Amazon Glue 实现 JDBC 数据源增量数据加载
Amazon Glue实现JDBC数据源增量数据加载
使用 Amazon Glue 来调度 Amazon Redshift 跑 TPC-DS Benchmark
提供CDK模版部署Glue调度Redshift环境,并进行TPC-DS benchmark
2021年亚马逊云科技 re:Invent 全球大会分析专题与会者指南
re:Invent的分析专题提供各种数据分析相关演说与会议,亚马逊云科技分析专家及其客户将在这些会议上发表演讲。
使用 Amazon Redshift 构建分层数据仓库分析 OLTP 数据
Instruct how to build a hierarchical data warehouse in Redshift