亚马逊AWS官方博客

Category: Analytics

在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较

Amazon Athena 分区投影相关的功能,透过分区投影中的值做匹配计算,得出位置,减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移,Glue 也推出了分区索引相关的功能,可以方便客户与其他服务,如EMR、Glue ETL、Redshift Specturm… 等等,做元数据的储存与查询。许多人会有一个疑问是,Athena分区投影 与 Glue分区索引效能再一定的分区数量时的比较,也是这篇部落格会探讨的议题。

远程调度 EMR 集群的常见方式总结

亚马逊云科技上的 EMR 大数据平台提供了计算存储分离的弹性架构(计算在虚拟机上,存储在s3上),基于此,常见的如流式处理,即时查询等作业可以单独运行在一个长期开启的EMR集群之中;而对于定时,跑批等业务可以运行在动态启停的EMR集群之中。对于后者来讲,由于其动态启停的特性,我们往往需要外置任务调度器于EMR集群之外。在上述的背景之下,我们会在接下来的文章之中对于当调度器外置之后,常见的远程调度EMR集群的方式,相应的优缺点,相关的例子等方面进行探讨