亚马逊AWS官方博客
Category: Analytics
Amazon EMR 之 YARN Label 和 Amazon EC2 Spot 实例的天作之合
本文将会讨论如何对 EMR 进行配置,在集群的运行过程中,当 Spot 实例发生中断时,维持 EMR 集群的稳定性。
Redshift最佳实践之Aurora/DMS数据同步、无服务器架构以及权限管理
本博文以Redshift作为数仓,并使用 AWS Database Migration Service (AWS DMS) 及其更改数据捕获 (CDC) 功能将Aurora 数据库的数据同步到Redshift的方案来阐述系统实施过程中遇到痛点及解决办法,主要以围绕DMS数据同步,Redshift Serverless及权限控制来进行详细阐述。
Spark on EKS在Graviton2实例上的性能调优实践
Spark on EKS在Graviton2实例上的性能调优实践
使用 AWS CDK 加速中国区 OpenSearch Domain 部署
自从Amazon Opensearch Service登陆中国北京和宁夏区,越来越多的企业借助其特性进行交互式日志分析、实时应用程序监控、网站搜索等。由于企业对Opensearch Service的依赖日益加深,快速部署Opensearch Service的需求也愈发增多。IaC(Infrastructure as Code)这一概念以及相关工具的出现很好的满足了企业对快速部署和管理云上资源的这一需求。本文着重介绍如何使用AWS CDK进行快速部署Opensearch Domain。
使用JDWP远程debug Amazon EMR上离线&在线应用
在AWS的云上大数据服务平台Amazon EMR上,我们可以使用JAVA技术栈的JDWP技术,对Spark,Flink两大最流行的离线、实时计算框架应用,在on yarn的hadoop集群上进行远程debug,这样开发的小伙伴能快速调试和定位生产环境中遇到的各种问题,而不用下载业务数据并在本地,或者只能依赖输出日志去推断问题,简化整个业务敏捷开发的运维和调优
使用AWS Opensearch KNN插件实现向量检索
Amazon Opensearch 的 KNN 插件可以方便地进行向量的 ingestion,storage 和 TopN 检索,并很好地利用 Opensearch 的分布式特性,对于海量向量数据的检索可以实现并行计算,性能能随集群 size 扩缩而线性增长。
消除复杂性以提高业务绩效:Bridgewater Associates 如何在 AWS 上构建安全、可扩展且基于 Spark 的研究服务
Bridgewater 的核心使命是通过分析市场驱动因素来理解世界的运作方式,并将这种理解转化为高质量的投资组合,为我们的客户提供投资建议。在 Bridgewater Technology 内,我们努力使我们的研究人员在他们最擅长的领域尽可能提高工作效率:建立对全球市场的基本理解。这意味着不再需要处理底层 IT 基础设施,而是专注于构建和改进他们的投资理念。
使用 Amazon Athena 和 Amazon Managed Grafana 直观地呈现 Amazon S3 数据
Grafana 是一个热门的开源分析平台,您可以使用该平台,通过灵活的控制面板创建、浏览和分享数据。其使用案例 […]
Fannie Mae 如何利用 Amazon Redshift 数据共享构建数据网格架构以实现自助服务
Amazon Redshift 数据分享支持跨 Amazon Redshift 集群的即时、精细和快速数据访问,而无需复制或移动数据。数据共享提供了对数据的实时访问,因此当创建者更新数据时,用户始终可以看到所有使用者的最新且事务一致的数据视图。您可以跨区域与相同或不同 AWS 账户中的 Amazon Redshift 集群安全地共享实时数据。通过数据共享,可以在组织内部和组织之间以及外部各方之间实现安全且受管控的协作。
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。