Amazon Comprehend 是一项自然语言处理 (NLP) 服务,使用机器学习来发现文本中的洞察信息。Amazon Comprehend 提供自定义实体识别、自定义分类、关键词提取、情绪分析、实体识别和更多 API,以便您可以轻松将自然语言处理集成到您的应用程序中。您只需在应用程序中调用相应 Amazon Comprehend API 并提供源文档或文本的位置即可。这些 API 将以 JSON 格式输出实体、关键词、情绪和语言,以供您在应用程序中使用。
自定义实体识别
自定义实体识别允许您自定义 Amazon Comprehend 来识别特定于您的域的条款。使用 AutoML,Comprehend 将从一些小示例集中进行学习(例如,保单号码、索赔号码或 SSN 列表),然后训练私有的自定义模型,以在 PDF、纯文本或 Microsoft Word 文档中的任何其他数据块中识别索赔号码之类的术语 – 无需机器学习。 有关更多详细信息,请参阅本文档页面。
-
示例:在此示例中,保险公司希望分析文本文档,了解特定于其业务的实体和保单号码。
示例文本:您好,我是 Sam Ford,我在填写车祸索赔。我的保单代码是 456-YQT。
实体 类别 数量 置信度 456-YQT Policy_ID 1 0.95
自定义分类
自定义分类 API 让您可以使用业务特定标签轻松构建自定义文本分类模型,而无需学习 ML。例如,您的客户支持组织可以使用自定义分类,根据客户对问题的描述自动按问题类型对入站请求进行分类。 使用您的自定义模型,您可以轻松调整网站评论、对客户反馈进行分类,以及整理工作组文档。有关更多详细信息,请参阅本文档页面。
-
示例:假设您要整理对航空公司的客户支持反馈。您希望将每条反馈按账户问题、机票退款和飞行投诉进行分类整理。要训练该服务,您需要创建一个 CSV 文件,其中包含每个问题的示例文本,并使用适用的三个标签之一标记每个样本。该服务将代表您自动训练自定义模型。要使用您的模型分析第二天的所有调用,您需要将每个文本文件提交给该服务,并接收已标记的结果以及标签匹配的置信度。
文本 标签 置信度评分 第 0 行 账户问题 0.92 第 1 行 机票退款 1 第 2 行 飞行投诉 1 第 3 行 飞行投诉 0.91 Doc5.csv 机票退款 1
实体识别
实体识别 API 会返回根据提供的文本自动分类的命名实体(“人物”、“地点”和“位置”等)。 有关更多详细信息,请参阅本文档页面。
-
示例:在本例中,我们正在查看一家公司的介绍。该 API 可识别出“组织”、“日期”和“位置”等实体,并返回置信度评分。
示例文本:Amazon.com, Inc. 位于华盛顿州西雅图,由 Jeff Bezos 创立于 1994 年 7 月 5 日,向客户销售书籍和搅拌机等各种商品。西雅图位于波特兰的北部和不列颠哥伦比亚省温哥华的南部。总部设在西雅图的其他知名公司有 Starbucks 和 Boeing。
实体 类别 置信度 Amazon.com, Inc.
组织 0.96 华盛顿州西雅图 地点 0.96 1994 年 7 月 5 日 日期 0.99 Jeff Bezos 人物 0.99 西雅图
地点 0.98 波特兰
地点 0.99 不列颠哥伦比亚省温哥华 地点 0.97 Starbucks
组织 0.91 Boeing
组织 0.99
情绪分析
情绪分析 API 会返回文本的整体情绪(正面、负面、中性或混合)。 有关更多详细信息,请参阅本文档页面。
-
示例:在本例中,客户正在发布对一双鞋的反馈。该 API 可识别出该客户表达的情绪以及置信度。
示例文本:我订购的是 S 码,希望刚好合脚,但它却有点像是 M 码。质量非常好。实物的颜色比图片上的棕色浅,但相当接近。如果内衬是棉花或羊毛的话,那将会好上十倍。
情绪 分数 混合 0.89 正面 0.09 负面 0.01 中性 0.00
Targeted Sentiment
Targeted Sentiment 通过识别对文本中实体的情绪(正面、负面、中性或混合),提供更细粒度的情绪洞察信息。有关更多详细信息,请参阅本文档页面。
-
示例:在此例中,餐馆正在查看客户评论以了解可以改进其业务的方面。
示例文本:我喜欢汉堡包,但是服务太慢了。
文本 实体类型 实体置信度评分 情绪 分数 我 人物 0.99 中性 0.99 汉堡包 其他 0.99 正面 0.99 服务 属性 0.99 负面 0.99
PII 识别和编辑
使用 Amazon Comprehend ML 功能检测和编辑客户电子邮件、支持票证、产品评论、社交媒体等中的个人身份信息 (PII)。不需要任何 ML 经验。例如,您可以在索引搜索解决方案中的文档之前分析支持票证和知识文章来检测 PII 实体和编辑文本。在此之后,搜索解决方案将没有文档中的 PII 实体。编辑 PII 实体可帮助您保护隐私和符合当地法律法规。 有关更多详细信息,请参阅本文档页面。
-
示例:在本示例中,客户希望编辑银行对账单中的个人和财务数据。PII 编辑 API 将识别和编辑 PII 以及置信评分。
示例文本:您好,John Smith。 您的 AnyCompany Financial Services, LLC 信用卡账号 1111-0000-1111-0008 的最低还款额是 24.53 美元,将于 7 月 31 日到期。根据您的自动转帐设置,我们将在到期日从您的银行账号 XXXXXX1111(银行代号为 XXXXX0000)中扣款。
实体
类型
分数
John Smith
名称
0.99+
1111-0000-111-0008
信用卡账号
0.99+
7 月 31 日
日期时间
0.99+
XXXXXX111
银行账号
0.99+
XXXXX0000
银行代号
0.99+
毒性检测
Comprehend 毒性检测提供了一种简单的、基于 NLP 的解决方案,用于检测基于文本的文档中的有毒内容。该功能开箱即用,可用于协调在线平台中的点对点对话以及生成式人工智能输入和输出。有关更多详细信息,请参阅此文档页面。
提示安全性分类
Comprehend 提供了一个预先训练的二元分类器,可以将输入提示分类为有害或无害。可以将其集成以允许 LLM 仅对无害内容做出响应。有关更多详细信息,请参阅此文档页面
关键词提取
关键词提取 API 会返回关键词或谈话要点以及证明此为关键词的置信度。 有关更多详细信息,请参阅本文档页面。
-
示例:在本例中,客户正在对比数码单反相机和拍立得相机。API 提取关键短语并返回有关结果的置信度评分。
示例文本:我是一名发烧级摄影师,日常主要使用数码单反相机以及随身携带的拍立得相机。虽然数码单反相机具有无与伦比的强大功能和便利性,但拍立得相机也有一些神奇之处。也许您正在拍摄纪实片,或者您拍摄的每个镜头都是独一无二的实物(这在当今世界照片不胜枚举的 Instagram 和 Facebook 上显得与众不同)。我敢肯定地说,它们用起来很有趣,如果您在派对上拿出来其中一个,大家都会眼前一亮。
关键词 置信度 发烧级摄影师 0.99
数码单反相机 0.97 拍立得相机 0.99
日常使用 0.99
强大功能和便利性 0.94 纪实片 0.99 每个镜头 0.92 独一无二的实物 0.99
当今 0.91 世界 0.99
Instagram 和 Facebook 0.99
事件检测
Comprehend Events 可让您从文档中提取事件结构,将文本页面提炼为易于处理的数据,供您的 AI 应用程序或图形可视化工具使用。使用该 API,您可以在没有 NLP 经验的情况下,大规模地回答大型文档集上的“谁-什么-何时-何地”问题。使用 Comprehend Events 提取以非结构化文本表示的真实世界事件和相关实体的详细信息。 有关更多详细信息,请参阅本文档页面。
语言检测
语言检测 API 可自动识别出 100 多种语言编写的文本,并返回主导语言以及证明其占据主导地位的置信度得分。 有关更多详细信息,请参阅本文档页面。
-
示例:在本例中,该 API 会解析文本,并能够识别文本中的主导语言为意大利语以及返回置信度得分。
示例文本:Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud.È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 语言代码 语言 置信度 it 意大利语 1.0
语法分析
借助 Amazon Comprehend Syntax API,客户能够使用分词断句和词性 (PoS) 分析文本,识别文本中的名词和形容词等单词边界和标签。 有关更多详细信息,请参阅本文档页面。
-
示例:在本示例中,我们将使用 Comprehend Syntax API 分析一个简短的文档。Syntax API 可对文本分词断句(确定单词边界)并使用名词 和动词等相关词性标记每一个单词。除了注明开始和结束偏移量之外(以便您知道单词在文本中的位置),我们还提供置信度得分。
示例文本:我喜欢我的速度快的、新的 Kindle Fire!
文本 标签 我 代词 喜欢 动词
我的 代词 速度快的 形容词 、 标点符号 新的 形容词 Kindle 专有名词 Fire
专有名词 ! 标点符号
主题建模
主题建模 API 可从存储在 Amazon S3 的文档集合中识别出相关术语或主题。它会识别集合中最常见的主题,并按组整理,然后将文档映射到相应主题。 有关更多详细信息,请参阅本文档页面。
-
示例:如果您的文档(Doc1.txt、Doc2.txt、Doc3.txt 和 Doc4.txt)存储在 Amazon S3 中,并且您向 Amazon Comprehend 指出了其位置,Comprehend 将分析这些文档并返回两个视图:
1.关键字分组,即主题。
每组关键字都与一个主题组相关联。权重是指在该关键字在相应组内所占的比例。权重最接近 1 的关键字最能代表主题组的上下文。主题组 关键字 权重 1 Amazon 0.87 1 西雅图 0.65 2 节假日 0.78 2 购物 0.67 每组关键字都与一个主题组相关联。权重是指在该关键字在相应组内所占的比例。权重最接近 1 的关键字最能代表主题组的上下文。2.按主题的文档分组。
文档名称 主题组 比例 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 每个文档都会映射到一个主题组,具体取决于该主题组的加权关键字在文档中所占的比例。
多语言支持
Amazon Comprehend 可以对德语、英语、西班牙、意大利语、
葡萄牙语、法语、日语、韩语、印地语、阿拉伯语、中文(简体)、中文(繁体)文本进行文本分析。要构建其他语言的应用程序,客户可以使用 Amazon Translate 将文本转换为 Comprehend 支持的语言,然后使用 Comprehend 执行文本分析。有关语言支持的更多详细信息,请参阅文档页面。