亚马逊AWS官方博客
Category: AWS Big Data
在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践
根据数据和处理需求适当配置 Spark 应用程序以使其成功非常重要。使用默认设置时,Spark 可能不会使用集群的所有可用资源,最终可能会出现物理和/或虚拟内存问题。
本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。
使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本
在这篇博文中,我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本,将其安装在 EMR 集群的主节点上,并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE(0=非活动;1=活动)。如果 CloudWatch 在一些预定义数据点收到 0(非活动),则将触发警报,然后执行终止集群的 AWS Lambda 函数。
使用 Athena 替换 Hbase 实现对历史数据的查询分析
Amazon Athena服务近期将在中国区发布。Amaozn Athena在大数据平台的交互式查询中应用非常广泛。之前由于中国区没有发布Amazon Athena服务,有些用户为了实现历史数据的查询,选择使用Apache HBase服务,这除了给用户造成管理和成本的负担之外,也对HBase集群的性能带来大幅的降低。本文通过一个示例介绍如何一步一步的从HBase中剥离历史数据实现使用Amazon Athena进行交互式查询的方案。
使用阻止公有访问配置保护您的 Amazon EMR 集群免受意外网络攻击
本文讨论了一种新的账户级功能,称为阻止公有访问 (Block Public Access ,BPA) 配置,可以帮助管理员在同一个区域中的所有 EMR 集群中强制执行一种通用的公共访问规则。
Annalect 如何使用 Amazon Redshift 构建事件日志数据分析解决方案
在本文中,我们将介绍如何在 AWS 上构建一个解决方案,以管理、增强和分析来自我们广告技术合作伙伴的事件日志数据。我们使用 Amazon S3 作为存储,使用 Amazon EC2 和 AWS Batch 进行计算,使用AWS Glue Data Catalog、Amazon Redshift 以及 Amazon Redshift Spectrum 进行分析。该架构高度可扩展、按需分配底层基础设施,被证明是面向我们数据分析用户的高性能、高性价比的解决方案。
Amazon QuickSight 更新:仪表盘中可使用多个工作表、轴标签方向选项等等
今天,我们很高兴地宣布 Amazon QuickSight 的一系列更新,仪表盘内容更丰富,常规和嵌入式控制面板中具有多个工作表。
Narrativ 使用 Amazon Redshift 帮助创建者货币化其数字化内容
在 Narrativ,我们已看到在过去 15 个月内,平台使用量产生巨大增长,而我们的产品所产生的数据也发生类似数量级的增长。此博文分享了我们使用 AWS 发展成为稳固、可扩展、高性能且具有成本效益的分析环境的内容,我们还讨论了一路来从数据仓库和数据湖分析中学习到的最佳实践。
使用 Amazon QuickSight ML Insights 检测欺诈性呼叫
欺诈者不断寻找新的技术和设计新的伎俩。这改变了欺诈方式使检测变得困难。企业通常使用基于规则的欺诈检测系统来应对。然而,一旦欺诈者意识到他们当前的伎俩或工具被识别出,他们很快就会找到破解方法。此外,在面临大量数据时,基于规则的检测系统往往会因为大量的数据显得吃力并且速度会下降。这使得难以检测欺诈行为并迅速采取行动,从而导致收入损失。
使用 Apache Flink 和 Amazon Kinesis Data Analytics for Java 应用程序构建和运行流应用程序
流处理有助于实时数据的收集、处理和分析,并能够持续生成见解和快速响应新出现的情况。当派生见解的值随时间减少时,此功能非常有用。因此,您对检测到的情况反应越快,反应就越有价值。例如,考虑一个可以在欺诈性信用卡交易发生时对其进行分析和阻止的流应用程序。将该应用程序与传统的面向批处理的方法相比较,该方法在每个工作日结束时识别欺诈性交易,并生成一份供您在次日早上读取的全面报告。
使用新查询编辑器查询您的 Amazon Redshift 集群
数据仓库是从您的数据中分析和提取可指导行动见解的关键组件。Amazon Redshift 是一种快速的可扩展数据仓库,可经济高效地分析您数据仓库和数据湖中的所有数据。
Amazon Redshift 控制台最近推出了查询编辑器。查询编辑器是浏览器内的界面,用于直接从 AWS 管理控制台中在 Amazon Redshift 集群上运行 SQL 查询。使用查询编辑器是在 Amazon Redshift 集群托管的数据仓库上运行查询的最高效方法。