[SEO 副标题]
本指南演示了如何使用 pgvector 和 Amazon Aurora PostgreSQL 进行情绪分析,这是一项强大的自然语言处理(NLP)任务。该指南展示了如何将 Amazon Aurora PostgreSQL 兼容版与 Amazon Comprehend 情绪分析 API 集成,从而通过 SQL 命令实现情绪分析推理。通过使用带有 pgvector 扩展的 Amazon Aurora PostgreSQL 作为向量存储,您可以加速检索增强生成(RAG)的向量相似性搜索,并利用 pgvector 的分层可导航小世界(HNSW)索引将查询速度提高 20 倍。
请注意:[免责声明]
架构图
[架构图描述]
第 1 步
从 GitHub 存储库下载 AWS CloudFormation 模板并部署 CloudFormation 堆栈。
第 2 步
CloudFormation 堆栈部署 AWS Cloud9 实例、Amazon SageMaker Notebook 实例、Amazon Aurora PostgreSQL 集群以及本指南所需的所有其他先决条件。
第 3 步
设置环境变量以连接到 Aurora PostgreSQL 实例并创建 pgvector 和 aws_ml 扩展。
第 4 步
设置环境以访问 Hugging Face Sentence-Transformer 模型并在 SageMaker 中生成文档嵌入。使用 pgvector 将向量嵌入存储在 Aurora PostgreSQL 中。
第 5 步
使用 pgvector 的 similarity_search_with_score 函数对向量数据运行相似性搜索。将 Aurora 与 Amazon Comprehend 函数集成以检索情绪分析。
第 6 步
使用 AWS Cloud9 IDE 中的 PostgreSQL plsql 客户端通过 SQL 语句检索结果。
开始使用
Well-Architected 支柱
当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
提供的 CloudFormation 脚本可自动部署关键资源,包括 Aurora PostgreSQL 集群、SageMaker Notebook 实例、AWS Cloud9 实例、虚拟私有云(VPC)、子网、安全组以及 AWS Identity and Access Management(IAM)角色。这种自动化部署可简化操作、减轻手动工作量、减少配置错误,从而促进卓越运营。
-
安全性
IAM 角色将 Aurora 与 Amazon Comprehend 集成,授予所需的最低权限。该角色与 Aurora 集群相关联,并且没有密码或访问密钥等凭证,从而增强了安全性。数据库用户凭证可安全存储在 AWS Secrets Manager 中,防止未经授权的访问和潜在的安全漏洞。
IAM 角色和策略提供从 Aurora 对 Amazon Comprehend 情绪分析 API 进行受控访问的权限,将权限限制在必要范围内。这种访问管理的最低权限方法原则增强了 Guidance 的安全状况。
-
可靠性
带有 pgvector 的 Aurora 可以存储和搜索机器学习(ML)生成的嵌入,同时利用索引和查询等 PostgreSQL 功能。Aurora 通过在三个可用区中维护六个数据副本以及只读副本和全局数据库复制选项来提供高可用性和可靠性。
使用带有 pgvector 的 Aurora,因为向量存储提供向量功能以及数据可靠性和耐用性,无需在单独的向量存储之间移动数据。Aurora 的弹性功能和 pgvector 的功能使您可以将现有的关系数据库用作向量存储,并与 Amazon Comprehend 和 SageMaker 等人工智能(AI)和机器学习(ML)服务无缝集成。
-
性能效率
带有 pgvector 的 Aurora PostgreSQL 在关系数据库中提供优化的存储、计算资源和向量索引功能,有助于确保高效的工作负载性能。Aurora 优化型读取功能可以将带有 pgvector 的工作负载的向量搜索性能提高多达九倍,超过常规实例内存。带有 pgvector 的 Aurora 不仅提供向量搜索、索引和情绪分析功能,还提供可实现绝佳查询性能的功能,将关系数据库的优势与向量功能相结合。
-
成本优化
SageMaker 提供节省计划,可将成本降低多达 64%,此外还为 Studio 笔记本、笔记本实例和推理提供灵活的按需定价。使用 AWS Cloud9 IDE 代替专用的 Amazon Elastic Compute Cloud(Amazon EC2)实例可进一步降低成本。此外,Amazon Comprehend API 的按使用付费模式可优化费用。这些服务通过按需型实例和节省计划提供经济高效的选项,以帮助您与预算保持一致。
-
可持续性
与同类 EC2 实例相比,AWS Graviton 实例上的 Aurora 集群消耗的能源降低高达 60%,同时可提供相同的性能和更高的性价比。本指南使用 AWS Cloud9 和 SageMaker Notebook 等临时资源来减少碳足迹。AWS Cloud9 是一个临时的集成式开发环境(IDE),它将 Aurora 与 Amazon Comprehend 集成,并通过 SQL 语句生成推理,进一步将环境影响降至最低。
相关内容
利用 pgvector 和 Amazon Aurora PostgreSQL 进行自然语言处理、聊天机器人和情感分析
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。