亚马逊AWS官方博客

Category: Analytics

在 EMR 6.0.0 上利用 Hive LLAP 实现 Apache Hive 性能倍增

本文介绍了与原有Amazon EMR 5.29版本相比,在Amazon EMR 6.0.0上运行Hive所带来的性能改进。性能的显著提升有助于减少查询运行时间与执行成本。此外,我们还了解到如何将Hive LLAP与Amazon EMR 6.0.0配合使用、如何进行具体配置、如何使用LLAP监控器查看状态与指标,以及如何通过启用Hive LLAP实现进一步性能提升。未来我们还将发布关于更多新功能的更新内容与在Amazon EMR上运行Apache Hive的后续改进消息,敬请期待!

Wind Mobility 公司如何构建无服务器数据架构

在Wind Mobility公司,我们一直将数据视为运营体系的最前沿。为此,我们需要保证数据基础设施拥有充分的灵活性,能够切实满足行业中不断变化的实际需求——这也是我们选择无服务器架构的根本原因。过去一年以来,我们构建起一套数据湖、一套数据仓库、一款商务智能套件以及多种生产级数据科学应用程序。所有这一切,都出自一支小型技术团队之手。

使用 Amazon AppFlow 与 Amazon Athena 分析 Google Analytics 数据

本文向大家介绍了如何使用Amazon AppFlow将Google Analytics数据传输至Amazon S3,并使用Amazon Athena对数据进行分析。利用这套架构,大家无需自主构建专门面向Google Analytics或者其他SaaS应用的数据提取应用程序。Amazon AppFlow使您能够一次性建立起全自动数据传输与转换工作流,以及与之配套的集成查询环境。

通往托管之路:Amazon Elasticsearch Service 用例分析

在加入AWS之前,我曾领导过一支开发团队,负责使用Elasticsearch构建移动广告解决方案。Elasticsearch是一款高人气开源搜索与分析引擎,适用于日志分析、实时应用程序监控、点击流分析以及搜索等多种场景。我负责的这套平台在推动公司业务中,发挥着至关重要的作用。

使用角色链限制 Amazon Redshift IAM 角色和组对 Amazon Redshift Spectrum 外部表访问

本文展示了两种控制用户及组对外部schema及表执行访问的方法。在使用Grant usage语句的第一种方法当中,无论表指向哪一条Amazon S3数据湖路径,被授权的组都可以访问schema中的所有表。这种方法灵活性更强,可以轻松实现访问授权,但无法允许或拒绝访问该schema中的某一或某些特定表。

使用 Amazon Redshift 通过配额机制监控及控制 schema 存储空间

本文还向大家展示了如何轻松在Amazon Redshift schema当中控制存储配额。我们不仅完成了schema之上创建并变更配额,同时授权特定用户使用该schema的操作步骤,同时也探讨了如何将数据导入schema并通过系统视图在多种用例下监控事务结果及磁盘使用量。通过这项强大的功能,相信大家能够通过Amazon Redshift切实满足各类业务需求。

Amazon Redshift Federated Query 最佳实践

本文回顾了能够帮助大家尽可能提升Amazon Redshift联邦查询性能的十项最佳实践。当然,每项实践都对应特定用例,请在具体采用之前认真评估您的当前场景是否与之匹配。 AWS将继续增强并改进Amazon Redshift Federated Query,也欢迎大家提供反馈意见。如果您有任何疑问或建议,请在评论中与我们交流。如果您需要进一步帮助以优化Amazon Redshift集群,请联系您的AWS客户服务团队。