AWS Big Data | 亚马逊AWS官方博客

在多主节点的 Amazon EMR 集群中实现用户身份认证与细粒度访问控制（二）Yarn 队列控制与 HBase Simple 认证

目前随着用户越来越重视数据的安全合规，当基于 Amazon EMR 做为最重要的组件之一来构建数据湖时，如何对 Amazon EMR 的数据访问控制是非常重要的。本博客提供的解决方案提供一个全面的 Amazon EMR 数据访问控制和权限管理框架，帮助有数据细粒度权限管控要求的 Amazon EMR 用户，实现多种组件的身份认证以及数据访问控制。

在多主节点的 Amazon EMR 集群中实现用户身份认证与细粒度访问控制（一）Open LDAP 身份认证与基于 Hive MetaStore 的访问控制

目前随着用户越来越重视数据的安全合规，当基于 Amazon EMR 做为最重要的组件之一来构建数据湖时，如何对 Amazon EMR 的数据访问控制是非常重要的。本博客提供的解决方案提供一个全面的 Amazon EMR 数据访问控制和权限管理框架，帮助有数据细粒度权限管控要求的 Amazon EMR 用户，实现多种组件的身份认证以及数据访问控制。

Stable Diffusion Quick Kit 动手实践 – 在 SageMaker Training Job 上进行 SDXL Dreambooth 训练并推理

本文是 Stable Diffusion Quick Kit 系列博客的一部分，介绍如何在 SageMaker Training Job 中加载进行 Stable Diffusion XL（以下简称SDXL）的 Dreambooth 微调训练，及训练完成后使用 Stable Diffusion WebUI 开源框架进行模型部署和即时推理，实现训推一体的整体 pipeline 及业务流程。

Amazon MSK 基于 S3 的数据导出、导入、备份、还原、迁移方案

Amazon MSK 集群的数据导出、导入、备份、还原多采用 Kafka MirrorMaker，但是，在某些场景中，受环境限制，两个于 Kafka 集群之间的网络可能无法连通，或者两个 AWS 账号相互隔离，亦或是需要将 Kafka 的数据沉淀为文件存储以备他用。此时，基于 Kafka Connect S3 Source / Sink Connector 的方案会是一种较为合适的选择，本文就将介绍一下这一方案的具体实现。

利用 Amazon MSK，Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓

很多客户有快速搭建简易实时数仓的需求，例如内控审计平台，希望从公司各业务线实时收集要监控的数据，并不需要复杂的 ETL 处理，而进到数仓后，希望既支持近实时的多维度查询，又支持后续的离线分析。那么，利用 Amazon MSK, Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓，是一个很好的选择，能实现项目的快速落地。

解决方案：如何在 Amazon EMR Serverless 上执行纯 SQL 文件？

长久已来，SQL 以其简单易用、开发效率高等优势一直是 ETL 的首选编程语言，但遗憾的是，Amazon EMR Serverless 未能针对执行 SQL 文件提供原生支持，这对于倚重纯 SQL 开发数仓或数据湖的用户来说并不友好。为此，我们专门开发了一组工具类，借助这组工具类，用户可以在 Amazon EMR Serverless 上直接执行 SQL 文件。

基于无服务架构 Glue Data Quality 提升 ETL 流程中的数据质量

随着数据分析业务的发展，用户对在数据分析时，ETL 流程中的数据质量越来越关注。数据质量保障数据分析时保证数据价值的重要前提。越来越多的用户希望能通过自动化的方式，以及适合的工具来解决。本文主要介绍如何在 AWS Glue 中实现数据质量评估。

最佳实践：如何优雅地提交一个 Amazon EMR Serverless 作业？

自 Amazon EMR 推出 Serverless 形态以来，得益于开箱即用和零运维的优质特性，越来越多的 EMR 用户开始尝试 EMR Serverless。在使用过程中，一个常被提及的问题是：我们应该如何在 EMR Serverless 上提交 Spark/Hive 作业？本文我们将分享一些这方面的最佳实践，帮助大家以一种更优雅的方式使用这项服务。

使用 EMR Hue 整合 Apache Kyuubi 提升 Spark SQL 开发效率

Amazon EMR 是一种全托管的云端数据平台，用于处理和分析大数据集。它基于开源的 Apache Hadoop 和 Apache Spark 等大数据技术栈，提供了一系列易于使用的工具，可帮助用户在云端快速构建和管理大规模的数据处理和分析应用程序。本文通过介绍在 EMR 中安装、集成 Apache Kyuubi，帮助提升在 EMR 平台上使用 Hue 进行 Spark SQL 开发的效率。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (1) – File Layouts

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍，利用 Notebook 提供的统一环境和上下文，我们可以非常生动地观察到 Hudi 的运行机制，并深刻体会到其背后的控制原理，这也正是本系列文章的写作灵感：我们希望借助 Notebook “探索，发现，思考，领悟”的思维模式，带领大家开启一段 Hudi 核心概念的探索之旅。

亚马逊AWS官方博客

Category: AWS Big Data