亚马逊AWS官方博客
Category: Analytics
Spark SQL 任务迁移到Amazon EMR 及性能调优
介绍了如何把IDC里的ETL任务快速迁移上云,并在保证低成本的同时,提升了性能表现,降低代码改动量和运维成本。
使用 Athena Federated Query 为 Tableau Server 提供多种数据源的统一管理和联合查询能力
本文以 CentOS 版本的 Tableau Server 为例,主要介绍如何通过 Athena 集成 Tableau 并不支持的数据源 (如 ElasticSearch,DynamoDB),并且利用 Athena单一数据来源,实现多数据库跨表读取与查询。
使用 JDBC 访问 Amazon Athena 的参数调优实践
本文给出了 Athena JDBC 特殊的工作机制以及如何根据实际情况对 JDBC 的性能进行适当的调优。
PB 级 HDFS 格式数据迁移到 Amazon S3 数据湖最佳实践
随着数据源和数据量的增加,存储新连接数据的需求也在增长。企业客户使用 Hadoop 分布式文件系统 (HDFS) 作为本地 Hadoop 应用程序的数据湖存储库。客户正在将他们的PB级数据迁移到 AWS,以获得更安全、可扩展、敏捷且经济高效的解决方案。
基于无服务器架构和事件驱动的 Data Lake 数据移动
本文探讨一种基于亚马逊云科技无服务器架构和事件驱动的数据移动方案(Replication Kit, Replikit),以满足数据在数据湖上特定场景下的数据发布需求。Replikit可以帮助实现:数据文件的多路定向输出、可跨AWS Partition分区的数据移动、数据移动同时的数据格式转换、多种网络环境以及长期或短期凭证授权下的数据移动。
使用Amazon Web Services CDK,在云上构建DataOPS 平台
这是系列文章的第二篇,在第一篇文章“另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护” 中介绍了做数据准备的ELT模式,以及如何利用DBT来帮助Data Analysts通过SQL做数据转化,测试和文档维护。 在这篇文章中,将以上一篇为基础,使用Amazon Web Services CDK构建一个Data OPS方案。
另辟蹊径: 在云端使用SQL语言实现数据转化,测试和文档维护
本篇文章将为读者介绍一新的开源工具: DBT(Data Build Tool), 并详细演示,如何使用DBT,基于Amazon Redshift 使用SQL语言来做数据转换,测试用例编写 和文档维护。
使用AWS VPC, KMS, Lambda和ElasticSearch 实现安全和加密的数据搜索
安全性是您应用程序的首要任务。安全几乎贯穿了产品研发的每一个环节,作为产品架构设计人员,开发,运维人员,使用系统级别的安全防护手段,可以有效的提高产品的安全性。在本文中,我们将向您介绍如何使用 Amazon VPC,Amazon KMS,Amazon Lambda 以及Amazon OpenSearch(Amazon ElasticSearch) 保护您的数据。
Amazon Redshift数据实时摄入最佳实践
本文将针对在Amazon Redshift的使用场景下,探讨如何准实时或实时的摄入数据到Redshift,以使得数据立即可用,并可以依此来构建实时数仓架构。
构建在Amazon EMR之上的Apache Atlas展现数据目录和数据血缘
在数据驱动业务的时代,各行各业中不同体量的客户都意识到数据的重要性,但是面对日 益增加的各式各样的数据,如何知晓这些数据是什么,什么时间,什么地方发生了变化, 这个数据的拥有者又是谁,等等。只有清楚的知晓这些内容,才能做到数据驱动业务。这 个时候,数据的元数据管理与数据治理成为企业级数据湖的重要部分。本文聚焦于构建在 Amazon EMR 之上的 Apache Atlas 展现数据目录和数据血缘。