亚马逊AWS官方博客
AWS Lake Formation 入门
基于AWS Lake Formation您可以轻松构建起安全的数据湖。 数据湖是一个集中的、有组织的、安全的数据存储环境,可以存储您的任意规模的结构化和非结构化数据。 您可以按原样存储数据,而无需先对其进行结构化。 您可以运行包括:仪表板、可视化、大数据处理、实时分析和机器学习等各种类型的分析和处理,以更好地指导决策制定。
使用 HBase on Amazon S3 设置只读副本集群
许多客户已经在享受使用HBase on Amazon S3的众多好处,包括更低的成本、更好的数据持久性和更便捷的可扩展性。美国金融业监管局 (FINRA) 已通过迁移到 HBase on Amazon S3架构将成本降低了 60%,并通过将存储与计算解耦以及将 S3 用作存储层获得了众多运营优势。HBase on Amazon S3允许您启动集群并立即开始对 S3 中的数据进行查询,而不必执行冗长的快照还原过程。
从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧
从 Amazon EMR 5.2.0 开始,您可以选择基于 Amazon S3 上的 Apache HBase。在 S3 上运行 HBase 可为您额外带来多项优势,包括降低成本、数据持久性和更轻松地进行扩展。
HBase 提供了多个可用于迁移和备份 HBase 表的选项。迁移到 S3 上的 HBase 的步骤与适用于 Apache Hadoop 分布式文件系统 (HDFS) 上的 HBase 的步骤类似。但是,如果您知道一些细微差别和一些“技巧”,则迁移会更容易。
在本文中,我将介绍如何使用一些常用的 HBase 迁移选项开始使用 S3 上的 HBase。
使用 Amazon EC2 Systems Manager 创建自定义 AMI 并将更新推送至正在运行的 Amazon EMR 集群
Amazon EC2 Systems Manager可帮助您自动化各种管理任务,例如自动化AMI创建或跨数百个实例运行命令或脚本。 在本文中,我将展示如何使用Systems Manager Automation来自动创建用于EMR的自定义Amazon Linux AMI和为AMI打补丁。
Amazon Athena 的十大性能优化技巧
在本博文中,我们将回顾可以提高查询性能的十大技巧。我们将着重关注对存储在Amazon S3上的数据的查询优化。Amazon Athena 使用 Presto 运行 SQL 查询,因此,如果您在 Amazon EMR 上运行 Presto,那么某些建议也行之有效。
使用 Amazon Athena 查询 OpenStreetMap
这是 2017 年 OpenStreetMap 美国理事会成员 Seth Fitzsimmons 的一篇特邀博文。Seth 为 Humanitarian OpenStreetMap Team、Mapzen、美国红十字会以及世界银行等客户设计创新的地理空间解决方案。
OpenStreetMap (OSM) 式一个免费的可编辑世界地图,由志愿者创建和维护,可依据开放许可证使用。Mapbox、Foursquare、Mapzen、世界银行、美国红十字会以及其他公司和非营利组织使用 OSM 为全世界的用户提供地图、方向指引和地理背景。
使用 Amazon EMR 6.0.0(测试版)在 Docker 上运行 Spark 应用程序
Amazon EMR 团队很高兴宣布支持 Spark 2.4.3、Hadoop 3.1.0、Amazon Linux 2 和 Amazon Corretto 8的EMR 6.0.0 的公开测试版已经推出。在这个测试版中,Spark 用户可以使用 Docker Hub 和 Amazon Elastic Container Registry (Amazon ECR) 中的 Docker 镜像来定义环境和库依赖项。使用 Docker,用户可以轻松管理依赖项并将其用于单个作业,而无需在集群的各个主机上安装依赖项。
Amazon EMR 对 Spark 集群提升弹性并增强恢复能力的实现
借助 Amazon EMR 中的自动扩展功能,客户可以根据集群使用情况或其他与作业相关的指标来动态扩缩集群。虽然这些功能可帮助您有效利用资源,但也可能会导致 EC2 实例在作业运行过程中关闭。这可能会导致计算和数据丢失,从而影响作业的稳定性或者因重新计算产生重复工作。
通过 EMR Notebooks 在运行的集群上安装 Python 库
本博文将讨论如何通过 EMR Notebook 直接在正在运行的集群上安装笔记本范围的Python库。在此功能推出之前,您必须依赖Bootstrap引导操作或使用自定义 AMI 来安装预置 EMR AMI 没有预先打包的其他库。接下来,博文还将讨论如何使用 EMR Notebooks 中本地可用的预安装 Python 库来分析结果并绘制图表。此功能在您无法访问 PyPI 存储库但需要分析和可视化数据集的情况下非常有用。
EMR Notebooks: 基于 Jupyter Notebook 的托管分析环境
EMR Notebooks 旨在帮助您轻松使用 Apache Spark 试验和构建应用程序。在本博文中,我将先介绍 EMR Notebooks 具备的一些优势。然后,我将介绍它的一些功能,例如将笔记本分离并附加到不同的 EMR 集群、从笔记本内部监控 Spark 活动、使用标签控制用户权限,以及设置用户模拟来跟踪笔记本用户及其操作。要了解如何创建和使用 EMR Notebooks,您可以访问使用 Amazon EMR Notebooks 或观看 AWS 在线技术讲座网络研讨会。