AWS Big Data | 亚马逊AWS官方博客

快速构建基于 AWS Glue 的抽取跨区域 MySQL 8 的数据管道

AWS Glue 是一种完全托管的数据目录和 ETL工具，如果您是首次使用AWS Glue详细演示和概念讲解可参照此博客。当前AWS Glue原生的JDBC连接库不支持MySQL 8，本文展示如何利用自定义的JDBC库连接外部数据源。本文以MySQL 8 举例，但任何支持JDBC连接的数据源都适用于此方法。由于目前国内宁夏区域的成本更经济，所以生产系统的数据库在北京，但数据处理系统在宁夏的情况并不少见。

DynamoDB Accelerator（DAX）服务–无需改写应用，将 DynamoDB 的响应时间从毫秒提升到微秒

传统的缓存场景通常是进行旁路的部署，需要考虑使用新的API接口、大量的应用修改，以及需要管理缓存的伸缩性和高可用等方面。用户的应用开发和运维管理工作的压力很大，因此一直期望有一个高性能、高可用并且简单易用的方案来做数据库的缓存。

使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式：第 2 部分

本文使用 AWS 示例数据集进行分布演练，向您演示 Amazon Redshift 的一些 ETL 和 ELT 设计模式。

使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式：第 1 部分

在本系列文章的第 1 部分中，我们将讨论使用主要和短期 Amazon Redshift 集群构建可扩展 ETL（提取、转换、加载）和 ELT（提取、加载、转换）数据处理管道的设计的最佳实践。您还将了解一些重要的 Amazon Redshift 功能（例如 Amazon Redshift Spectrum、并发扩展以及最近新增的对数据湖导出的支持）的相关用例。

用 Airflow 实现 EMR 集群的动态启停并通过 Livy 远程提交任务

互联网行业每天都有大量的日志生成，需要在固定时间段对数据进行ETL工作。用户常规的做法是启动一组长期运行的EMR集群，配置远程提交任务的服务器，结合自身的任务调度系统定期提交任务，但集群执行完成任务之后会闲置，造成不必要的开销。另一种方法是在需要执行任务的时候启动集群，任务完成之后关闭集群，但因为每次启动集群后，主节点与核心节点的IP都会发生分变化，导致每次都需要重新配置提交任务的服务器，造成额外的工作负担。本文介绍了一种通过Apache Airflow任务调度系统动态启停Amazon EMR集群的方法，并通过EMR内置的Livy远程提交作业，这样可以节省大量的成本并且无需进行过多的额外配置。

使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成

本文将指导您完成整个流程，使用 AWS CloudFormation 建立跨领域信任，并将身份验证从 Active Directory 网络扩展到启用了 Kerberos 的 Amazon EMR 集群。建立跨领域信任后，Active Directory 用户可以使用自己的 Active Directory 凭证访问 Amazon EMR 集群，并以自己的身份运行作业。

Amazon Redshift Spectrum 十二大最佳实践

Amazon Redshift Spectrum 使您能够对存储在 Amazon S3 中的数据运行 Amazon Redshift SQL 查询。利用 Redshift Spectrum，您可以将 Amazon Redshift 的强大分析能力扩展到存储于 Amazon Redshift 本地的数据之外。

Amazon Redshift Spectrum 将数据仓库扩展到 EB 级别且无需加载

很多年前，当我们首次研究构建基于云的数据仓库的可行性时，现实不容乐观：我们的客户所存储的数据量在持续不断的增加，但只有小部分数据进入了数据仓库或
Hadoop 系统以供分析。我们发现这一问题并不仅限于云领域。这一问题在业界广泛存在，体现为企业存储细分市场的增长速率远远超过数据仓库细分市场的增长速率。

在 Amazon EMR 上运行 PySpark 报表业务

前言
关于Spark和Amazon EMR
正文
数据集
启动EMR Spark集群
PySpark编程和调试
使用Spark SQL API和DataFrame编写报表任务
使用EMR步骤功能提交PySpark任务
创建EMR一次性集群运行PySpark任务
对并表后的数据进行查询
结语

将存储过程迁移到 Amazon Redshift

Amazon 始终以满足客户需求为工作重点。客户强烈要求希望能在 Amazon Redshift 中使用存储过程，以便更轻松地从原有的本地数据仓库迁移现有工作负载

亚马逊AWS官方博客

Category: AWS Big Data