亚马逊AWS官方博客
Category: Analytics
使用Spline收集Spark数据血缘实践
本文会带您一步一步地在AWS上部署Spline,提供在Glue和EMR中实现Spark代码级别的血缘,并且结合开源数据湖架构Hudi和Delta Lake来提供批流入湖实例,本文会重点介绍如何使用Spline来捕获。
构建、共享、部署:业务分析师和数据科学家如何使用无代码机器学习和 Amazon SageMaker Canvas 缩短面市时间
机器学习(ML)可以优化多个垂直行业的核心业务功能(例如需求预测、信用评分、定价、预测客户流失、确定下一次最佳商品推荐、预测延迟发货及提高生产质量),从而帮助企业增加收入、推动业务增长并降低成本。传统机器学习开发周期需要几个月的时间,且需要稀缺的数据科学和机器学习工程技能。分析师对机器学习模型的想法往往会积压很长时间,因为需要等待数据科学团队有空来实现,而数据科学家的精力却往往放在需要其全部技能的更复杂的机器学习项目上。
使用 Amazon MSK、Apache Flink 和 Apache Hudi 实现流批一体的数据湖架构
这篇文章中,我们使用 Lambda 架构,介绍如何分析业务,以及如何以数据湖为本来形成流批一体的架构。
使用 Amazon MSK Connect、Apache Flink 和 Apache Hudi 创建低延迟的源到数据湖管道
近年来,我们已经从整体式架构向微服务架构转变。微服务架构使应用程序更易于扩展和更快开发,从而实现创新并加快新功能的上市。但是,这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的洞察,您应该将不同孤岛中的所有数据集中到一个地方。
Spark 小文件合并功能在 AWS S3 上的应用与实践
本文将基于Spark文件提交机制来介绍Spark小文件合并功能的基本原理,并进一步阐述我们在AWS S3上所进行的适配工作,以及应用Spark小文件合并功能带来的收益。
Amazon EMR之EMR和Hadoop的前世今生
讲解Hadoop的由来,以及为何会有Amazon EMR,它们之间的异同之处
自动驾驶数据湖(三):图像处理流程管道
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(二):图像处理和模型训练
云上自动驾驶数据湖参考架构和落地实践。
自动驾驶数据湖(一):场景检测
云上自动驾驶数据湖参考架构和落地实践。
通过AWS DMS与Amazon MSK来实时收集Amazon DocumentDB中的流数据
目前市场上对实时数据进行分析的场景越来越多,本文将尝试从DocumentDB中抽取实时数据流,并打入消息队列Kafka,方便后端进行Consume和分析。基于篇幅原因,我们会在之后的文章里使用Flink来实时消费Kafka的数据,方便做特征工程以及实时分析,拿到实时数据中的Insight。