亚马逊AWS官方博客
Category: Analytics
如何在 ADFS 与 AWS 之间建立信任,并通过 Active Directory 凭证配合 ODBC 驱动程序接入 Amazon Athena
本文展示了如何在Active Directory当中配置ADFS 3.0,并将其作为IdP以使用SAML实现与AWS的身份验证联动。本文还探讨了如何将Athena ODBC驱动程序集成至ADFS,以及如何直接使用Active Directory凭证接入Athena。通过将Active Directory与Athena ODBC驱动程序集成起来,我们可以更灵活地通过各类熟悉的商务智能工具访问Athena,使用SQL分析Amazon S3中的数据且完全无需创建单独的IAM用户。
在EMR 6.0.0 中使用 Docker 简化您的 Spark 依赖项管理
本文向大家讲解了如何使用Amazon EMR 6.0.0与Docker简化Spark中的依赖项管理流程。我们创建一套Docker镜像以打包现有Python依赖项,创建一个集群并将其设定为使用Docker运行时,而后将创建的Docker镜像与EMR Notebook配合使用以运行PySpark作业。
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
在EMR上使用Spark,可以在基础设施抽象与管理之间达成适当的平衡,同时帮助我们实现粗粒度配置以保证数据科学家及工程师及时获得所需工具。在Route 53与ALB等多种AWS服务的帮助下,整个部署流程也变得更加轻松易行。
Compass 公司使用 Amazon ES 推动房屋搜索流程的简化与现代化
在本文中,我们解释了Compass公司如何使用Amazon ES为客户提供符合其房产需求的搜索结果。无论大家希望实时搜索新列表,还是打算使用Compass的已保存搜索机制进行市场监控,Amazon ES都能为您提供良好的运行效果。 相较于复杂繁琐、难以管理的Lucene基础设施,Compass在转向Amazon ES之后得以节约下大量时间与精力,并借此着力推动业务拓展与工程研发,最终开辟出新的商业机遇。
Intuit 公司使用 Amazon EMR、Amazon SageMaker 与 AWS Service Catalog 构建数据湖
本文介绍了我们用于构建Intuit数据湖的各项基本单元。我们的解决方案绝非妙手偶得,而是源自Intuit公司数十名工程师多年来积累下的共性最优方法,代表着我们运营经验的技术积注。这些实践使我们得以将PB级别的数据注入数据湖,并为数百个具有不同需求的处理账户提供服务支持。我们的生态系统仍在建设当中,希望我们的经历能够为大家的数据湖探索之旅带来启发。
Facebook 使用 Amazon EC2 评估 Deepfake 检测挑战赛参赛作品
在本文中,我们解释了Compass公司如何使用Amazon ES为客户提供符合其房产需求的搜索结果。无论大家希望实时搜索新列表,还是打算使用Compass的已保存搜索机制进行市场监控,Amazon ES都能为您提供良好的运行效果。 相较于复杂繁琐、难以管理的Lucene基础设施,Compass在转向Amazon ES之后得以节约下大量时间与精力,并借此着力推动业务拓展与工程研发,最终开辟出新的商业机遇。
使用 Apache Flink 与 Amazon Kinesis Data Analytics 实现流式 ETL
本文讨论了如何使用Apache Flink与Kinesis Data Analytics构建流式ETL管道。其中着重强调了如何构建可扩展解决方案,在解决流式摄取中部分高级用例的同时,保持较低的运营开销。这套解决方案将帮助大家快速实现流式数据的丰富与转换,并将其加载至数据湖、数据存储或者其他分析工具当中,且无需执行额外的ETL操作步骤。本文还探讨了如何通过监控与故障处理对应用程序加以扩展。
在 Amazon Elasticsearch Service 中使用 Random Cut Forests 实现实时异常检测
在本文中,我们理解了异常检测的目标,并探讨了异常检测模型与输出结果方面的详细信息。目前,大家可以轻松从Amazon ES以及Open Distro for Elasticsearch当中获得这些功能。最后,我们还将异常检测工具的结果与两种常用模型进行了比较,并观察到相当可观的性能改进。
关于在 AWS 上运行 Apache Kafka 的最佳实践
在本文中,我们将讨论了在AWS云中运行Kafka的几种常见模式。AWS还提供另一种托管解决方案,即 Amazon Kinesis Data Streams。该方案无需为服务器的管理或扩展而分神,大家可以在几秒钟之内扩展流式管道规模且无任何停机,跨可用区数据复制将自动执行,以开箱即用的方式享受良好的安全保障,Kinesis Data Stream与Lambda、Redshift、Elasticsearch等多种AWS服务以及Storm、Spark、Flink等开源框架紧密集成。
Amazon Kinesis Data Analytics 无服务器流式数据处理服务简介
Amazon Kinesis流式数据处理服务凭借强大的实时处理功能、无需预置或管理任何基础设施、按实际用量付费这些特点,可以帮助企业快速构建流式数据处理、分析平台,获得对企业业务运营的洞察,并帮助企业实时响应业务和客户的需求,加速企业的数字化转型。