亚马逊AWS官方博客
Category: AWS Big Data
使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理
对于大多数公司而言,处理不断增加的数据量并整合新数据源充满挑战。 通常,AWS 客户会收到来自各种连接设备和传感器的海量消息,这些消息必须先经过有效注入和处理,之后才能执行进一步分析。 通常 Amazon S3 是适合保存所有类型数据的地点。 但是,数据在 Amazon S3 中的存储方式会对后续数据处理的效率和成本产生重大影响。 具体而言,如果 Apache Spark 处理的是大量小文件而不是较少的大文件,则可能会因文件操作量大而承受巨大负担。 在这些文件中,用于打开每个文件、读取元数据信息和关闭文件都会占用几毫秒时间。大量文件操作占用的总时间较多,这会导致处理缓慢。这篇博文将介绍如何使用 Amazon Kinesis Data Firehose 将传送到 Amazon S3 的大量小消息合并为较大消息。 这样可以加快运行 EMR 服务 中运行的 Spark 的的处理速度
通过 Amazon EMR 重新配置动态修改集群
如果您是使用长期运行的 Amazon EMR 集群的开发人员或数据科学家,您将面临快速变化的工作负载。这些变化通常需要不同的应用程序配置才能在集群上以最佳方式运行。
通过重新配置功能,现在可以更改正在运行的 EMR 集群上的配置。从 EMR 版本 emr-5.21.0 开始,该功能允许您在不创建新集群或通过 SSH 手动连接到每个节点的情况下修改配置。
基于个性化查询场景的 Amazon Redshift 压力测试方案
本文提出了一种基于AWS的数据仓库产品Amazon Redshift的并发性能测试方案,包括针对不同客户的数据规模和个性化查询需求来进行测试数据的构造、基于测试数据的并发压测等部分,对客户在使用Redshift进行数仓分析前的可行性和性能评估有一定借鉴和指导意义。
Amazon QuickSight 现已支持电子邮件报告和大数据标签
今天,我们很高兴地宣布在 Amazon QuickSight 中可提供电子邮件报告和数据标签。
部署高可用的EMR集群,为您的业务连续性保驾护航
Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)以处理和分析海量数据的操作。借助这些框架和相关的开源项目 (如 Apache Hive 和 Apache Pig)。您可以处理用于分析目的的数据和商业智能工作负载。此外,您可以使用 Amazon EMR 转换大量数据和将大量数据移入和移出其他 AWS 数据存储和数据库,如 Amazon S3 或 Amazon DynamoDB等。
在 Amazon QuickSight 中使用表计算进行高级分析
Amazon QuickSight 最近推出了表计算功能,让您能够对数据执行复杂的计算,以获得有意义的见解。在本博文中,我们将一起来看几个对样本销售数据集应用表计算的示例,以便您根据自己的需求开始使用这一新功能。
Amazon QuickSight 宣布正式发布 ML Insights
在 2018 年 re:Invent 大会上,我们发布了预览版 ML Insights,这是一组即开即用的机器学习和自然语言功能,可为 Amazon QuickSight 用户提供图表以外的业务见解。
今天,我们将正式发布 ML Insights。
对症下药 – Redshift 调优方法漫谈
所谓流水不腐户枢不蠹,任何一款数据库即使有完善的初始设计,随着数据量的增长变化,依然需要DBA的精心维护调优,才能保证数据库以最佳状态为客户提供服务。Amazon Redshift也是如此,本文将着重向读者介绍如何定位性能问题以及性能调优的最佳实践。
善始方能善终- Amazon Redshift 表设计探秘
Amazon Redshift的表设计与OLTP的表设计有很大区别,Amazon Redshift需要面对海量数据集和极其复杂的分析查询,如果设计不当,大规模并行处理就会受到数据分配不均和数据移动的影响,从而大大影响性能,本文希望能为读者理清Amazon Redshift表设计的一些基本原则,分享一些最佳实践,让读者能最大限度地发挥Amazon Redshift的潜力。
借助 AWS 技术改善临床试验结果 | AWS 大数据博客
在本博文中,我们重点介绍了 AWS 客户用于实现临床试验现代化的常见架构模式。这包括引入移动技术以提高生成证据的能力、降低成本、提升质量、提高普及率以及为患者提供更加个性化的医疗等。