亚马逊AWS官方博客

Category: Analytics

在 Amazon SageMaker Service 中使用 R 绘制统计过程控制图(SPC)实现流程稳定性预警

在实际的运营场景中,我们可以通过统计过程控制图(SPC:Statistical Process Control Chart)监控运营过程的稳定性,对过程存在的异常因素进行预警,以实现故障减少,用户体验提升和运营成本降低的目的。本文将介绍如何在Amazon SageMaker Service中,通过R语言来绘制统计过程控制图,从而可视化监控运营过程数据。

高盛如何通过 AWS PrivateLink 构建起接入 Amazon MSK 集群的跨账户连接体系

本文介绍了高盛集团旗下交易银行团队如何通过TxB微账户策略建立起应用程序隔离边界,又如何使用AWS PrivateLink对策略做出进一步补充。此外,本文还讨论了TxB团队如何跨各微账户建立起与MSK集群的网络连接,又如何通过Amazon MSK在满足核心安全要求的同时摆脱沉重的运营负担。在建立Amazon MSK环境时,大家不妨参考文章中介绍的构建方法。

Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR

我们的大数据管道已经在Amazon EMR上运行超过一年,且所有数据都存储在S3当中。在特定时段中,我们实时处理管道的峰值速率高达每秒200多万个事件,而从事件出现到汇总结果更新,总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性,帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意,也将继续与AWS一道探索EMR的进一步改善之道。

使用 Route 53 解析器查询日志记录您的 VPC DNS 查询

Amazon Route 53 团队刚刚推出了一项名为 Route 53 解析器查询日志的新功能,该功能可让您记录由 Amazon Virtual Private Cloud 内的资源发出的所有 DNS 查询。无论是 Amazon Elastic Compute Cloud (EC2) 实例、AWS Lambda 函数还是容器,如果它位于您的 Virtual Private Cloud 中并进行 DNS 查询,则此功能将记录它;然后您可以探索并更好地了解应用程序的运行情况。

在 Amazon EMR 上监控 Spark Streaming 应用程序

如何监控和调优Spark Streaming实时应用程序是一项非常挑战的工作,您需要随时应对环境中发生的种种变化。另外,还需要监控源数据流和作业的输出,从而可以了解全面的情况。Spark是一套非常灵活并且丰富的框架,它能够提供多种方式来对任务进行监控。本文主要探讨了其中一种有效的方法,使用SparkListeners并将提取到的指标与CloudWatch指标相集成,从而实现监控Spark Streaming微批处理程序的性能。

在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优

本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具,以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率,借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制,这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。

Drop 如何使用 Amazon EMR for Spark 实现成本减半,并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量,据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率,借此获得了巨大的商业成功,这又反过来敦促我们持续探索管道改进的新方法。最终,我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步,才能不断将业务系统的运营效率提升至新的高点。