亚马逊AWS官方博客
Category: Analytics
使用Athena (Presto) 分析本地 Oracle 数据库导出的数据
在企业环境下,混合云架构是一种常见的架构,理想环境下摄取本地Oracle数据库的数据是通过Apache Sqoop或DMS使用网络专线将数据迁移到s3存储桶,进行数据分析。但受本地条件限制,很多用户是用Oracle Datapump或者Exp/Imp将数据导出后,再将本地数据传输到s3存储桶。本文通过阐述使用上述两种不同的工具,介绍如何将数据导入s3存储桶,使用Athena做数据分析。
通过 AWS Managed Microsoft Active Directory 运行混合 Active Directory 服务
企业客户通常需要构建混合 Active Directory 解决方案,以支持在现有本地企业数据中心和 AWS Cloud 中运行的应用程序。这样做的理由有很多,例如,保持与本地旧版应用程序的集成、保持对基础设施资源的控制以及满足特定的行业合规性要求。
Alluxio on Amazon EMR 集成实践
本文档介绍了Alluxio及在Amazon EMR上部署的整体架构,并修正了Alluxio社区与Amazon EMR上集成的方案,新增加了对EMR task实例组及多主的支持
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
多库多表场景下使用Amazon EMR CDC实时入湖最佳实践
使用 AWS Step Functions 和 Amazon Athena 实现简易大数据编排
本文介绍了如何使用 AWS Step Functions 和 Amazon Athena 实现简易的大数据编排。
使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖
大多数企业将其关键数据存储在数据湖中,您可以将来自各种来源的数据存储到集中存储中。数据由专门的大数据计算引擎处理,例如用于交互式查询的 Amazon Athena、用于 Apache Spark 应用程序的 Amazon EMR、用于机器学习的 Amazon SageMaker 和用于数据可视化的 Amazon QuickSight。
在 Amazon Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 优化联合查询性能
Amazon Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon Simple Storage Service(Amazon S3)中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。2019 年,Athena 增加了对联合查询的支持,以便跨存储在关系、非关系、对象和自定义数据来源中的数据运行 SQL 查询。
EKS上有状态服务启用存储加密
在这个博客里我们针对EKS上有状态服务的数据保护安全需求,介绍了结合KMS服务,在EKS中如何使用StatefulSet、Snapshot Controller 的方式实现有状态服务的存储加密启用,该方式通过从底层存储解决数据加密存储及迁移,无需应用层介入数据迁移,从而简单有效解决了EKS上有状态服务的存储加密需求。
在Amazon EMR上构建实时数据湖
在 Amazon EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, Amazon MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 Amazon EMR 和 Amazon MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理
Amazon EMR Hudi 性能调优——Clustering
Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。