AWS Big Data | 亚马逊AWS官方博客

在生产中结合使用 Amazon Redshift Spectrum、Amazon Athena 和 AWS Glue 与 Node.js

在此博文中，我们解释了将带 Redshift Spectrum 的 Amazon Redshift 扩展为现代数据仓库的原因。我将介绍我们的数据增长及平衡成本和性能的需求如何促使我们采用 Redshift Spectrum。我还将分享我们的环境中的关键性能指标，并讨论提供可扩展和快速环境的额外 AWS 服务，并提供数据供我们日益增长的用户群进行立即查询。

使用 API Gateway 监管客户端与 Apache Kafka 之间的交互

在本文中，我们将演示 Amazon API Gateway 如何作为 Amazon MSK 集群和客户端之间的一个组件来解决这些问题。
Amazon MSK 是一款适用于 Apache Kafka 的完全托管的服务，借助它只需几次点击即可轻松预置 Kafka 集群，不再需要手动预置服务器、管理存储或者配置 Apache Zookeeper。Apache Kafka 是一个开源平台，可用于构建实时的流式处理数据管道和应用程序。

使用 Amazon Athena 访问跨账户 AWS Glue 数据目录

很多 AWS 客户采用多账户策略。集中式的 AWS Glue 数据目录对于在最大程度上减少与不同账户之间元数据共享相关的管理工作来说非常重要。本文介绍了基于 Amazon Athena 在不同 AWS 账户之间查询集中式数据目录的功能。

使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出

AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况，并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据；在账单收费期最后结束前，它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶，可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift，也可以通过 Amazon Athena 进行查询，或者把它上传到 Amazon QuickSight。

在 Amazon EMR 中使用 Apache Knox 实现边界安全

边界安全可帮助提升Apache Hadoop 集群的安全性，防止用户从集群外访问过程中带来的威胁。它与 Apache Hadoop 集群的 REST 和 HTTP 交互启用了单个的访问点的方式，简化了客户端与集群的交互。例如，在与启用 Kerberos 的集群上的服务进行交互之前，客户端应用程序必须先使用 Kinit 或 SPNEGO 获取 Kerberos tickets。在本文中，我们将逐步介绍如何设置 Apache Knox 以帮助 Amazon EMR 实现边界安全。

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变，数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库，存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中，您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

AWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践

本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中，针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件，如何来扩展 Apache Spark 应用程序。此外，文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构，来缩短 Apache Spark 应用程序的执行时间。

在最大程度上优化 Amazon Redshift 上的数据提取与报告性能

本文提供了从 S3 将大型数据卷加载到 Amazon Redshift 的方法，并运用有效的分发技术优化在相对小型的 Amazon Redshift 集群上运行报告查询的性能。

使用 Amazon EC2 Spot 实例和 Amazon EMR 运行 Apache Spark 应用程序的最佳实践

在本博客中，我们将重点讨论如何通过使用 Spot 实例在 Amazon EMR 上实现成本优化并高效运行 Spark 应用程序。我们提供了几个最佳实践建议，用于在使用Spot实例过程中提高Spark应用程序的容错能力。实施这些最佳实践不会对Spark应用程序的可用性，性能和执行时间产生大的影响。

Amazon EMR 迁移指南

世界各地的企业逐渐认识到新型大数据处理和分析框架（如 Apache Hadoop 和 Apache Spark）的强大功能，但同时也发现在本地数据湖环境中运行这些技术面临着挑战。他们也对当前供应商的未来表示担忧。
为了解决这个问题，我们推出了 Amazon EMR 迁移指南（注：英文版首次出版于 2019 年 6 月，这是我们首次推出中文版）。本文是一份全面的指南，旨在提供合理的技术建议，帮助客户规划如何从本地大数据部署迁移到 EMR。

亚马逊AWS官方博客

Category: AWS Big Data