AWS Big Data | 亚马逊AWS官方博客

使用 AWS Glue 提取 Salesforce.com 中的数据并使用 Amazon Athena 进行分析

在本文中，我将向您展示如何使用 AWS Glue 提取您 Salesforce.com 账户里的数据，并将其保存到 Amazon S3。然后，将来自 Salesforce.com 的账户数据与来自单独的订单管理系统的订单数据结合起来，并使用 Amazon Athena 来生成报告。

使用 AWS Glue 和 Amazon S3 构建数据湖基础

数据湖是一种越来越受欢迎的数据存储和分析方法，可解决处理海量异构数据的难题。数据湖可让组织将所有结构化和非结构化数据存储在一个集中式存储库中。由于数据可以按原样存储，因此无需将其转换为预先定义的数据结构（区别于传统关系型数据仓库）。

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

经 EMRFS S3 优化的提交程序是一款新的输出提交程序，可用于 Amazon EMR 5.19.0 及更高版本的 Apache Spark 作业。此提交程序使用 EMR File System (EMRFS) 可提高将 Apache Parquet 文件写入 Amazon S3 时的性能。在本文中，我们将运行性能基准测试，将此经优化的新提交程序算法与现有提交程序算法（即 FileOutputCommitter 算法版本 1 和 2）进行比较。最后，我们会讨论新提交程序的当前限制，并在可能的情况下提供解决方法。

在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧

对于 Amazon EMR 客户来说，尽管在 Amazon S3 中直接处理数据早已稀松平常，但有时您可能需要将数据从 S3 复制到 Amazon EMR 集群上的 Hadoop 分布式文件系统 (HDFS) 中。此外，您的某个使用案例还可能需要在存储桶或区域之间迁移大量数据。在这类使用案例中，简单的复制操作对大型数据集来说显然不适用。Amazon EMR 可以提供这方面的帮助。它提供了一个实用程序 S3distCp，用以帮助将数据从 S3 迁移到其他 S3 位置或集群上的 HDFS。

迁移到 Amazon EMR上基于 Amazon S3 的 Apache Hbase：指导和最佳实践

这篇博文提供了有关如何从 Apache HBase on HDFS 迁移到在 Amazon EMR 上使用基于Amazon S3的Apache Hbase的指导和最佳实践。

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

根据数据和处理需求适当配置 Spark 应用程序以使其成功非常重要。使用默认设置时，Spark 可能不会使用集群的所有可用资源，最终可能会出现物理和/或虚拟内存问题。
本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。

使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本

在这篇博文中，我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本，将其安装在 EMR 集群的主节点上，并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE（0=非活动；1=活动）。如果 CloudWatch 在一些预定义数据点收到 0（非活动），则将触发警报，然后执行终止集群的 AWS Lambda 函数。

使用 Athena 替换 Hbase 实现对历史数据的查询分析

Amazon Athena服务近期将在中国区发布。Amaozn Athena在大数据平台的交互式查询中应用非常广泛。之前由于中国区没有发布Amazon Athena服务，有些用户为了实现历史数据的查询，选择使用Apache HBase服务，这除了给用户造成管理和成本的负担之外，也对HBase集群的性能带来大幅的降低。本文通过一个示例介绍如何一步一步的从HBase中剥离历史数据实现使用Amazon Athena进行交互式查询的方案。

使用阻止公有访问配置保护您的 Amazon EMR 集群免受意外网络攻击

本文讨论了一种新的账户级功能，称为阻止公有访问 (Block Public Access ,BPA) 配置，可以帮助管理员在同一个区域中的所有 EMR 集群中强制执行一种通用的公共访问规则。

Annalect 如何使用 Amazon Redshift 构建事件日志数据分析解决方案

在本文中，我们将介绍如何在 AWS 上构建一个解决方案，以管理、增强和分析来自我们广告技术合作伙伴的事件日志数据。我们使用 Amazon S3 作为存储，使用 Amazon EC2 和 AWS Batch 进行计算，使用AWS Glue Data Catalog、Amazon Redshift 以及 Amazon Redshift Spectrum 进行分析。该架构高度可扩展、按需分配底层基础设施，被证明是面向我们数据分析用户的高性能、高性价比的解决方案。

Category: AWS Big Data