亚马逊AWS官方博客
Category: AWS Big Data
动态扩展 Amazon EMR 集群上的存储
在托管的 Apache Hadoop 环境(如 Amazon EMR 集群)中,当集群中的存储容量用满时,没有方便的办法处理该问题。出现这种情况的原因是,您设置了 Amazon Elastic Block Store (Amazon EBS) 卷,并在启动集群时配置了挂载点,因此很难在集群运行后修改存储容量。可行的解决方案通常有:向集群添加更多节点,将数据备份到数据湖,然后启动具有更高存储容量的新集群。如果占用存储的数据可舍弃,也可删除多余的数据。
使用原生 EBS 加密和存储桶级 S3 加密选项来保护 Amazon EMR 上的数据
数据加密是保护数据安全的有效方案之一。通过加密数据并管理对加密密钥的访问,您可以确保只有授权的用户或应用程序可以读取您的敏感收据。医疗卫生和金融等受监管行业的客户之所以选择 Amazon EMR,一个主要原因就是它提供了安全地存储和访问数据的合规环境。
利用 Amazon Redshift Spectrum 使用嵌套数据类型
Redshift Spectrum 是 Amazon Redshift 的一项功能,允许直接查询存储在 Amazon S3 上的数据,并支持嵌套数据类型。此文将讨论哪些用例可从嵌套数据类型中获益,如何将 Amazon Redshift Spectrum 与嵌套数据类型配合使用以实现出色的性能和存储效率,以及嵌套数据类型的一些局限性。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 2 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,它们为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
在此博文系列的第 1 部分中,您已经学习了如何使用 Apache Airflow、Genie 和 Amazon EMR 管理大数据工作流。
本博文将指导您部署 AWS CloudFormation 模板、配置 Genie 以及运行在 Apache Airflow 中创作的示例工作流。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。
数据魔方 – 快速在 Amazon EMR 上部署 Apache Kylin 进行大数据分析
Amazon EMR是业界领先的原生云大数据平台,它极大地简化了在AWS上运行各种大数据框架进行大数据的处理和分析工作。通过使用这些框架和相关的开源项目(如Apache Spark、Apache Hive和Apache HBase等),并结合 Amazon EC2 的Auto Scaling动态弹性和 Amazon S3 的可扩展高可靠存储,您可以轻松、快速、经济高效地处理大规模海量数据。通过EMR ,您可以在数分钟内启动大数据集群,并且无需担心基础设施管理的任务,EMR会帮助完成这些工作,您只需要集中精力进行数据分析即可。
Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime
Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。
快速构建基于 AWS Glue 的抽取跨区域 MySQL 8 的数据管道
AWS Glue 是一种完全托管的数据目录和 ETL工具,如果您是首次使用AWS Glue详细演示和概念讲解可参照此博客。当前AWS Glue原生的JDBC连接库不支持MySQL 8,本文展示如何利用自定义的JDBC库连接外部数据源。本文以MySQL 8 举例,但任何支持JDBC连接的数据源都适用于此方法。由于目前国内宁夏区域的成本更经济,所以生产系统的数据库在北京,但数据处理系统在宁夏的情况并不少见。
DynamoDB Accelerator(DAX)服务–无需改写应用,将 DynamoDB 的响应时间从毫秒提升到微秒
传统的缓存场景通常是进行旁路的部署,需要考虑使用新的API接口、大量的应用修改,以及需要管理缓存的伸缩性和高可用等方面。用户的应用开发和运维管理工作的压力很大,因此一直期望有一个高性能、高可用并且简单易用的方案来做数据库的缓存。
使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式:第 2 部分
本文使用 AWS 示例数据集进行分布演练,向您演示 Amazon Redshift 的一些 ETL 和 ELT 设计模式。