亚马逊AWS官方博客
Category: Analytics
基于大语言模型知识问答应用落地实践 – 知识召回调优(上)
本文是本系列的第三篇,对 RAG 场景中的知识召回展开介绍,对比和分析了向量召回和倒排召回的优劣势,并基于一些实践总结了倒排召回问题分析和优化的经验。
利用 Amazon Web Services Athena 处理 CSV 文件中的 JSON 数据
利用 Athena 处理 CSV 中 JSON 数据的多种方案介绍和对比,以及适用的场景分析。
利用 Apache Ranger 管理 EMR 中的数据权限
在 Amazon EMR 中,通过部署 Apache Ranger 和 Simple AD 服务,对 Amazon EMR 中的数据进行 Hive 表级别的权限管理。
Tricentis 如何使用 Amazon Redshift 在软件开发生命周期中快速解锁见解
介绍了 Tricentis 如何使用 Amazon Redshift 在软件开发生命周期中解锁洞察力
企业级数据共享规模化模式
介绍如何通过 AWS 的数据共享服务在企业中规模化地共享数据
基于大语言模型知识问答应用落地实践 – 知识库构建(下)
本文在本系列上篇博客的基础上,通过一个真实数据场景的实践进行更详细的阐述,讨论的重点更多放在针对大规模的文档,更快更完整的构建基于向量数据的知识库上面,这对于一些行业如金融、法律、医疗等行业知识库的构建具备指导借鉴意义。本文的第一部分对于 OpenSearch 的集群配置选择给出了一些方法参考,第二三四部分对于数据摄入和检索性能等方面给出了一些初步的经验总结。
语义搜图检索方案
图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材……在本文中,我们将介绍两种基于语义的搜图检索方式以及部署方案,您可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性,并选择更加适合的方案使用。
基于大语言模型知识问答应用落地实践 – 知识库构建(上)
本文介绍了大语言模型+知识库用于知识问答机器人场景的业务背景,并对其中的知识库构建的所有环节,包括文档拆分,知识向量化,入库向量数据库以及调优进行讨论和分析。
海纳百川:基于 Redshift Streaming Ingestion 实现日志实时入仓
本文介绍如何使用 Redshift Streaming Ingestion 及 fluent bit 实现日志实时入仓。
如何使用 Amazon EMR on Amazon EKS 构建可靠、高效、用户友好的 Spark 平台
介绍如何在 Amazon EKS 上构建安全、高效和易于使用的 Spark 平台,以支持数据科学家和分析师