亚马逊AWS官方博客
Category: AWS Big Data
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
利用自动实体化视图优化您的 Amazon Redshift 查询性能
Amazon Redshift 是一个快速、完全托管式云数据仓库数据库,可使通过标准 SQL 和商业智能工具对 […]
使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 Amazon DynamoDB 数据访问评论源
现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成,从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]
机器学习多步时间序列预测解决方案
AWS ProServe GCR 利用机器学习进行多步时间序列预测解决方案。
一种使用 AWS 云原生服务部署高可用 APACHE AIRFLOW 集群的方案
对于需要在 AWS 上使用 Apache Airflow 但是 无法使用 AWS 托管服务 MWAA , 或者想使用特定 Apache Airflow 版本, 或者想定制 Apache Airflow 登陆、部署方式的用户,可以通过此方案搭建高可靠的 Apache Airflow 集群,同时提供用户登陆和鉴权机制。此方案已在全球知名 Tier One 汽车供应商的高级辅助驾驶系统(Advanced driver-assistance system, ADAS)开发平台成功应用。
Alluxio on Amazon EMR 集成实践
本文档介绍了Alluxio及在Amazon EMR上部署的整体架构,并修正了Alluxio社区与Amazon EMR上集成的方案,新增加了对EMR task实例组及多主的支持
使用Alluxio优化EMR上Flink Join
针对Flink流式处理业务场景中经常遇到的lookup join的性能瓶颈,本文提出了通过Alluxio缓存层和Flink时态表join方案,将hive维度表数据自动加载至Alluxio UFS缓存中,并做为join时变化表上视图,可以有效的解决该痛点
Feast on AWS 解决方案
本文介绍了Feast框架的整体架构及设计思路,并step by step详细说明了Feast on AWS集成和使用,包括安装部署离线/在线特征库、使用特征库、特征库同步的方法等。对于使用Feast开源框架构建MLOps平台的用户,本文可以作为快速构建和开发指南
Amazon EMR Hudi 性能调优——Clustering
Hudi作为Amazon EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。
基于OpenLDAP与Kerberos的Amazon EMR身份认证方案(三):基于SASL/GSSAPI深度集成
本系列文章将基于OpenLDAP和Kerberos给出完整的Amazon EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。