亚马逊AWS官方博客
利用 Amazon Redshift Spectrum 使用嵌套数据类型
Redshift Spectrum 是 Amazon Redshift 的一项功能,允许直接查询存储在 Amazon S3 上的数据,并支持嵌套数据类型。此文将讨论哪些用例可从嵌套数据类型中获益,如何将 Amazon Redshift Spectrum 与嵌套数据类型配合使用以实现出色的性能和存储效率,以及嵌套数据类型的一些局限性。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 2 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,它们为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
在此博文系列的第 1 部分中,您已经学习了如何使用 Apache Airflow、Genie 和 Amazon EMR 管理大数据工作流。
本博文将指导您部署 AWS CloudFormation 模板、配置 Genie 以及运行在 Apache Airflow 中创作的示例工作流。
使用 Apache Airflow、Genie 和 Amazon EMR 编排大数据工作流:第 1 部分
在 AWS 上运行大数据 ETL 工作流的大型企业的运营规模很大,从而为很多内部终端用户提供服务,并且同时运行数千个管道。再加上需要持续更新和扩展大数据平台以第一时间掌握新框架和最新版本的大数据处理框架,这便需要高效的架构和组织结构,既能简化大数据平台的管理,又能方便对大数据应用进行访问。
此博文介绍了可帮助集中平台团队维护大数据平台以同时服务数千个 ETL 工作流的架构,并且简化了实现该目的所需的操作任务。
Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime
Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此runtime在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。
使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式:第 2 部分
本文使用 AWS 示例数据集进行分布演练,向您演示 Amazon Redshift 的一些 ETL 和 ELT 设计模式。
使用 Amazon Redshift 设计数据湖架构的 ETL 和 ELT 模式:第 1 部分
在本系列文章的第 1 部分中,我们将讨论使用主要和短期 Amazon Redshift 集群构建可扩展 ETL(提取、转换、加载)和 ELT(提取、加载、转换)数据处理管道的设计的最佳实践。您还将了解一些重要的 Amazon Redshift 功能(例如 Amazon Redshift Spectrum、并发扩展以及最近新增的对数据湖导出的支持)的相关用例。
使用 Kerberos 身份验证将 Amazon EMR 与 Microsoft Active Directory 集成
本文将指导您完成整个流程,使用 AWS CloudFormation 建立跨领域信任,并将身份验证从 Active Directory 网络扩展到启用了 Kerberos 的 Amazon EMR 集群。建立跨领域信任后,Active Directory 用户可以使用自己的 Active Directory 凭证访问 Amazon EMR 集群,并以自己的身份运行作业。
Amazon Redshift Spectrum 十二大最佳实践
Amazon Redshift Spectrum 使您能够对存储在 Amazon S3 中的数据运行 Amazon Redshift SQL 查询。利用 Redshift Spectrum,您可以将 Amazon Redshift 的强大分析能力扩展到存储于 Amazon Redshift 本地的数据之外。
Amazon Redshift Spectrum 将数据仓库扩展到 EB 级别且无需加载
很多年前,当我们首次研究构建基于云的数据仓库的可行性时,现实不容乐观:我们的客户所存储的数据量在持续不断的增加,但只有小部分数据进入了数据仓库或
Hadoop 系统以供分析。我们发现这一问题并不仅限于云领域。这一问题在业界广泛存在,体现为企业存储细分市场的增长速率远远超过数据仓库细分市场的增长速率。
将存储过程迁移到 Amazon Redshift
Amazon 始终以满足客户需求为工作重点。客户强烈要求希望能在 Amazon Redshift 中使用存储过程,以便更轻松地从原有的本地数据仓库迁移现有工作负载