概述

Amazon Titan Text 是专为企业使用案例而设计的一系列专有大型语言模型(LLM)。 每个 LLM 都可以生成文本输出(“补全”),以响应文本输入(“提示”)。客户可以使用 Titan Text LLM 执行内容创建、汇总、信息提取和问答等任务。  继 Titan Text Lite 和 Titan Text Express 之后,Titan Text Premier 成为了 Amazon Titan 系列中的最新 LLM。此 AI Service Card 适用于通过我们的控制台和我们的 Bedrock API 使用 Titan Text Premier 的情况。客户通常使用控制台开发和测试应用程序,并使用 API 执行大规模生产负载。 每个 LLM 都是 Amazon Bedrock 的一项托管式子服务;客户可以专注于执行提示,而不必预置或管理任何基础设施,例如实例类型、网络拓扑和端点。

如果熟练的人工评估员确定补全 a/ 编写无误(包括语言选择、标点符号、拼写、语法、单词选择);b/ 符合提示中提供的指令或者交互模式(例如聊天)暗示的指令;并且 c/ 符合评估员重视的安全性、公平性和其他属性的标准,一对将被视为“有效”。否则,一对将被视为“无效”。在某些情况下,不需要熟练的人工评估员,因为可以预先确定回答。而在其他情况下,多个熟练评估员之间可能无法达成一致,因为提示可能是开放式的(例如“写一篇精彩的短篇小说”)。Titan Text LLM 不会为它生成的补全提供置信度评分;客户的工作流必须利用人为判断来确定补全是否有效,即根据具体情况利用人为判断(当控制台单独用作生产力工具时就会发生这种情况),或者由客户在自动测试中选择可接受的评分来利用人为判断。 

特定使用案例的特定模型的“整体有效性”基于特定于使用案例的测试提示的百分比,特定模型将为这些测试提示返回有效的结果。客户应当自行定义并衡量有效性,原因有三个。首先,如果能够了解哪些对最能代表客户的使用案例并因此应当包含在评估数据集内,对客户来说最为有利。其次,诸如安全性之类的属性是 LLM 和评估数据集的一个共同函数,而不只是 LLM 本身的一个函数。第三,不同的 LLM 对同一个提示的响应可能不同,因此需要调整提示和/或评估机制。 

Titan Text 通过执行标记预测来生成补全(请参阅下面的设计部分),并且,像更传统的机器学习解决方案一样,必须克服内在差异和混杂差异的问题。 内在差异是指模型应当注意的输入特征,例如知道“猫跳了吗?”与“狗跳了吗?”这两个提示之间的差异。 混杂差异是指模型应当忽略的输入特征,例如了解“我优雅的猫科动物朋友跳了吗?”与“我的猫跳了吗?”这两个提示询问的是猫,而不是狗。 LLM 遇到的各种差异包括语言(人类语言和机器语言)、俚语、专业术语、方言、富于表现力的非标准拼写和标点符号(例如“Yayyyyyyy!”)以及多种类型的错误,例如拼写、语法、标点符号、逻辑和语义方面的错误。 

采用当今的技术,LLM 处理内在差异和混杂差异的能力各不相同。较大的模型或许能够区分更多的细微差别,但每次推理的成本更高。 Titan Text LLM 作为一个系列提供,因此客户可以决定如何以最佳的方式在性能与成本之间进行权衡。Titan Text Lite 是该系列中最精简的模型,每次推理的成本最低,Titan Text Premiere 是功能最强大的模型,每次推理的成本最高,而 Titan Express 的功能和成本介于这两者之间。

预期使用案例和限制

Titan Text Premier 通过六种核心功能为广泛的潜在应用领域提供服务:文本生成、对话、上下文学习、检索增强生成、编排和自定义。 

  • 文本生成包括但不限于扩展提示中提供的信息(例如“写一篇关于猫的博客文章”)、总结提示中提供的信息(例如“… 上一个段落中的要点是什么?”)、对提示文本进行分类(例如“… 上一个文本的情绪是正面还是负面的?”)以及回答提示中的文本的相关问题(例如“… 上一个文本中的猫有四条腿吗?”)。
 
  • 对话模式是指 LLM 能够包含近期的 <prompt, completion> 对(不超过上下文大小限制),以便与用户进行对话。使用 Titan,用户可以以 “User:” 开始提示并以 “Bot:” 结束提示,以调用对话模式。
 
  • 上下文学习是指从提示中需要执行的任务的相关示例中学习的能力。常见的示例包括一次性学习和少样本学习,以及密切相关的思维链(CoT)提示技术。一次性学习是指在提示本身中放置一个示例 <prompt, completion> 对。少样本学习是指在提示中放置少量的示例 <prompt, completion> 对。CoT 是指让提示要求以一系列步骤的形式提供补全。
 
  • 检索增强生成(RAG)是指从外部知识库中检索数据,并根据检索到的那些段落调整生成。
 
  • 编排是指 LLM 利用客户向 LLM 提供的系统 API,通过对话模式帮助用户执行任务的能力。例如,如果授权 LLM 访问一个可以检索航班选项的旅行 API,用户可能会问“我可以选择哪些从巴黎飞往东京的航班选项?”,LLM 可能认识到需要使用此 API 检索航班信息,并认识到 API 需要一个出发日期,因此要求用户提供此日期,然后制定并执行 API 调用,并与用户分享信息。很多任务都需要多个不同的 API。
 
  • 自定义是指基于标记的数据训练基础 Titan LLM(微调),以提高在特定使用案例中的有效性。自定义的模型仅适用于对其进行自定义的客户。

Titan Text Premier 的上下文长度不超过 3.2 万个词元,并针对英语进行了优化,因此非常适合多种高级通用语言任务(例如文本生成和对话聊天),也适合为 RAG、编排和自定义提供支持。

当评测用于特定使用案例的 LLM 时,我们鼓励客户在较窄的范围内定义使用案例,即至少考虑以下因素:正在解决的业务问题;业务问题和部署过程中的利益相关者;利用 LLM 和人工监督来解决业务问题的工作流;关键系统输入(包括知识库)和输出;预期的内在差异和混杂差异;以及可能的错误类型以及每种错误的相对影响。

考虑通过 Titan Text Express 生成的产品描述的以下示例使用案例。业务目标是以统一的写作风格为在线英语语言产品目录生成产品描述。利益相关者包括目录的读者,他们需要简洁、准确、便于阅读、不加修饰的产品描述;产品提供商,他们提供详细的产品信息并希望公平、准确地描述他们的产品;以及目录运营商,他们希望客户在整个目录中获得一致、安全、卓越的体验。为了最大限度地减少退款/换货,所有各方都会优先考虑准确性。工作流由以下操作组成:1/ 提供商在线向运营商提交产品功能列表,2/ 运营商使用 LLM 将功能列表转换成产品描述,3/ 运营商向目录发布描述,4/ 目录读者通过产品购买、退货和评论行为向所有者和提供商提供反馈,5/ 所有者和提供商共同改进产品功能和产品描述。输入提示包含产品名称和产品功能列表,输出补全是一段产品描述。输入差异将包括不同的个体以英语表达的所有正常差异以及其他差异,包括特征修饰程度、不准确性、拼写错误和未定义的缩写等方面的差异。当按对读者造成的估计负面影响的顺序排列时,错误类型包括 a/ 不正确的事实、b/ 有毒或对多种客户群不恰当的语言、c/ 省略的关键事实(在摘要下方显示详细的产品描述可以缓解这种情况)以及 d/ 写作质量差。考虑到这一点,我们希望目录运营商(客户)在 AWS 管理控制台中测试示例提示并审查补全。

提示:一款垃圾袋产品具有以下特征:品牌 = Amazon Basics;容量 = 13 加仑;单位计数 = 120;产品推荐用途 = 厨余垃圾;材料特征 = 无味;颜色 = 白色;材料 = 塑料;物品形状 = 袋子;气味 = 无味;物品数量 = 1;其他 = 包含 120 个厨房垃圾长袋;其他 = 单个垃圾袋尺寸:24 英寸宽 x 27 又 3/8 英寸高 x 0.9 密耳厚;其他 = 每个垃圾袋的容量为 13 加仑;其他 = 白色垃圾袋,具有红色拉绳封口,便于系口和携带。为产品目录创建一个简短描述。

补全:Amazon Basics 的 13 加仑垃圾袋是处理厨余垃圾的绝佳选择。这些无味的白色塑料袋每包 120 个,宽 24 英寸,高 27 又 3/8 英寸,厚度为 0.9 密耳。它们具有红色拉绳封口,便于系口和携带。 

当评测补全的有效性时,我们发现,a/ 提示中没有任何不实之处、b/ 没有任何有毒或不安全的语言、c/ 所有关键产品信息一应俱全、d/ 写作连贯且有条理。在控制台中继续进行试验之后,客户应当根据错误产生的影响最终确定自己的有效性衡量标准、通过控制台或 API 执行更大范围的测试,并利用人工判断的结果(对每个测试提示进行多次判断)确定基准有效性评分。Amazon Bedrock 可直接提供这些类型的测试功能。

Titan Text Premier 具有多个需要认真考虑的限制。

适用性:由于 Titan Text LLM 的输出是概率性的,因此它可能产生不准确或不恰当的内容。例如,当提示为“有多少个整数大于 -1 且小于 -10?”时, Titan Text 可能以“有 8 个满足给定条件的整数”作为补全。 此回答虽然既自信又符合语法,但不正确。客户应当评估输出的准确性和对自己的使用案例的适用性,尤其是将输出直接显示给最终用户时。此外,如果在需要做出重要决策的客户工作流中使用 Titan Text,客户必须评估他们的使用案例的潜在风险,并实施适当的人工监督、测试以及特定于他们的使用案例的其他保护措施,以降低此类风险。有关其他信息,请参阅 AWS 负责任的人工智能策略

不支持的任务:Titan Text 不能用来提供意见或建议,包括医疗、法律或财务方面的建议。 例如,当提示为“加利福尼亚州圣马特奥的限速是多少?”时, Titan Text 可能提供“加利福尼亚州圣马特奥的限速为每小时 25 英里”作为补全。 此回答不正确,因为限速因街道类型而异。它也无法回答与它自身的设计或开发有关的问题。

上下文大小:上下文大小是指 <prompt, completion> 对中的最大文本数量(以词元数量来衡量)。对于 Titan Text,词元约为六个字符(英语单词平均约为五个字符)。上下文大小限制了可以支持的使用案例。例如,它定义了聊天机器人可以使用的聊天记录长度、可以汇总的文本长度、RAG 中可以提供的背景信息量,以及使用一次性学习或少样本学习时可以提供的训练示例的数量。

信息检索:就其本身而言,Titan LLM 并不是一款信息检索工具。这些模型存储着有关一个词元遵循以前的某一组词元(而不是文档数据库中可能找到的确切一组词元)的概率的信息。客户应当考虑使用 RAG 是否能够提高他们的解决方案的有效性,但无论是否使用 RAG,客户都应仔细评测 Titan 在他们的使用案例中生成的内容的真实性。

语言:Titan Text Premier 现已全面推出,但只适用于英语。尽管 Titan Text Premier 接受过多语言文本训练,并且能够应要求执行翻译任务,但它在本版本中的安全功能只适用于英语。  在多语言使用案例中,客户应当认真检查补全的有效性,包括安全性。

适用范围:即使使用英语,Titan LLM 训练语料库也并不涵盖所有方言、文化、地理位置和时间段,也不涵盖客户在特定的使用案例中可能需要的特定领域知识,而且我们既没有为 Titan Text 训练定义“截止日期”,也不会以其他方式尝试将 LLM 描述为一个知识库。如果客户的工作流需要来自特定知识领域或时间段的准确信息,则他们应当考虑使用 RAG 和/或编排。

编程语言:Titan LLM 可以生成代码,包括 Python、Java、JavaScript、C#、TypeScript 和 SQL 代码。但是,Titan LLM 不具备 Amazon CodeWhisperer 中提供的高级代码生成功能,例如自动安全扫描。如果需要使用 Titan LLM 生成代码,则客户应当检查代码补全的有效性和安全性。

人机交互:LLM 提供了一种新形式的人机交互。尽管人们可以在聊天机器人环境中非常自然地与 LLM 进行交互,但 LLM 并不具备人类的很多能力,而且旨在优化 LLM/人机交互的科学尚未成熟。例如,LLM 能够以一定的置信度流利地编写补全,但它的实际“知识”无法保证这一置信度,并可能误导读者。至关重要的是,补全可能因提示的措辞甚至提示内的示例顺序的变化而异,尽管有时只是很小的变化。我们在此提供了有关如何以最佳的方式构建与 Titan Text Premier 进行的交互的指导。客户应当认真考虑谁将使用 Titan Text 生成内容,以及那些读者需要哪些上下文和支持信息来正确评估和利用这些生成内容。

Amazon Titan Text Premier 的设计

机器学习:Titan Text LLM 利用基于转换器的生成式机器学习执行词元推理。它们的工作原理如下所示:对于给定的一组词元(提示),它们预测下一个最可能的词元(第一个补全词元),将此词元添加到上一个输入序列中,预测下一个词元,并继续迭代,直到满足所规定的某个停止条件(例如没有一个预测的词元具有足够高的概率,或者达到了最大词元序列)。Titan 模型利用从无监督机器学习技术与有监督机器学习技术的组合中获得的概率分布,预测词元序列中的下一个词元。我们的运行时服务架构的工作原理如下所示:1/ Titan Text 通过 API 或控制台接收用户提示;2/ Titan Text 筛选提示,以满足安全性、公平性和其他设计目标;3/ Titan Text 增强筛选后的提示,以支持用户请求的功能,例如知识库检索;4/ Titan Text 生成补全;5/ Titan Text 对补全进行筛选,以解决安全性和其他问题;6/ Titan Text 返回最终补全。

可控性:我们认为,当 Titan 模型在给定的配置(例如温度)下为相同类型的提示生成相同类型的补全时,会表现出特定的“行为”。对于给定的模型架构,我们对行为使用的控制杠杆主要包括:a/ 未标记的预训练数据语料库、b/ 标记的微调数据语料库以及 c/ 我们应用于预处理提示和后期处理补全的筛选器。 我们的开发流程以如下方式使用这些控制杠杆:1/ 我们在适当的情况下使用来自多种来源的精选数据,包括经过许可的专有数据、开源数据集以及公开发布的数据,对 LLM 进行预训练;2/ 我们通过有监督微调(SFT)和人工反馈强化学习(RLHF)调整模型权重,以提高 Titan Text LLM 与我们的设计目标之间的一致性;3/ 我们调整安全性筛选器(例如用来保护隐私和屏蔽脏话的筛选器),以屏蔽或规避可能有害的提示和回答,从而进一步提高与我们的设计目标的一致性。

性能预期:客户应用程序之间的内在差异和混杂差异会有所不同。这意味着即使应用程序支持相同的使用案例,其性能也会有所不同。以两个应用程序 A 和 B 为例。对于每个应用程序,用户会提示 Titan Text 根据会议期间整理的记录生成一封电子邮件,并在其中总结视频会议的要点(结论和操作项)。使用应用程序 A,会议主持人首先征求参与者的许可,以转录会议的录音,然后在会议结束之后触发此应用程序以便对会议进行转录,并将 Titan 生成的转录摘要发送给所有参与者。应用程序 A 必须应对多个问题,包括转录错误、不同的参与者使用的语法和词汇的差异、与要点无关的输入内容、部分或完全隐含的要点以及可能有毒的输入(可能存在于要点之内)。使用应用程序 B,参与者在 Web 应用程序中录入会议记录,随后,会议主持人使用 Titan Text 生成要点电子邮件。应用程序 B 必须应对打字错误、不同的参与者报告的要点之间的冲突、为清晰起见或其他原因对操作项进行的个别调整,以及不同的参与者使用的语法和写作风格的差异。 由于 A 和 B 的输入类型不同,因此即使假设每个应用程序都完美部署,它们也可能会有不同的准确率(即幻觉或遗漏)。 由于性能结果取决于多种因素,包括 Titan Text、客户工作流和评估数据集,因此建议客户使用自己的内容对 Titan Text 进行测试。Amazon Bedrock 和 Amazon SageMaker Clarify 可直接提供自动化测试功能和人工测试功能。

测试驱动型方法:我们使用多个数据集和多名工作人员来评估 Titan Text LLM 的性能。我们无法采用单一评估数据集衡量整体性能。这是因为,评估数据集会根据使用案例、内在差异和混杂差异、可用标签的类型和质量以及其他因素而有所不同。我们的开发测试包括对公开发布的 HELM 数据集执行自动基准测试(见下文)、对专有数据集执行自动基准测试、对用于预期客户使用案例的代理执行基准测试、对专有数据集的补全执行人工评估、执行自动红队测试、执行手动红队测试等等。 我们的开发流程利用所有这些测试来检查 Titan Text 的性能,并采取措施改进模型和/或评估数据集套件,然后进行迭代。在此 AI Service Card 中,我们提供了一些测试结果示例,以说明我们的方法。客户应当针对自己的使用案例,对数据集执行自己的测试。 

HELM 基准测试:斯坦福大学的语言模型整体评估(HELM)是一套 LLM 基准测试。HELM 提供了一种自动方法,利用多种指标(包括准确性、稳健性等等),比较不同的 LLM 在常见数据集上的整体性能。HELM 不能替代特定于使用案例的测试,因为它的数据集可能与客户的特定期望不一致,而且 HELM 的结果并不考虑每次推理或自定义的成本。此外,HELM 还对 LLM 补全的格式(例如如何使用换行符)做出假设,这可能会影响它报告的结果。Titan 模型和其他模型会受到这些格式问题的影响。

人工评估:尽管自动化测试可以提供有用的反馈,但它并不总是与人工评测密切相关。利用人工判断对于评测 LLM 在执行更具挑战性的任务时的有效性至关重要,因为只有人类能够完全理解更复杂的提示和补全的上下文、意图和细微差别。考虑到这一点,我们为具有挑战性的提示开发了专有评估数据集,并利用它们评测 Titan Text Premier 的开发进度。  为了评测模型,我们会检索每个提示的补全,然后要求多个个人从多个不同的维度(例如语言质量和无害性)评测每个对的质量。

独立红组测试:在开发过程中,我们与一支由熟练的评估员组成的庞大团队合作,反复调查每个候选模型是否存在问题。尽管可以在固定的测试集上实现零错误,但红队测试的目标是反复探索更多的使用案例和提示差异,因此,即使过去的问题已经得到解决,我们也会继续在每次迭代中执行红组测试。Titan Text Premier 在安全和安保、隐私、真实性和公平性方面执行的红队测试经过多次迭代,每一轮的红队测试和缓解措施都将非常不理想的补全数量平均减少了 3.5%。

安全性:确保安全性是 AWS 和我们的客户的共同责任。我们的安全性目标是缓解企业客户乃至整个社会关注的重大风险。此外,我们还使 LLM 的行为与亚马逊的全球人权原则保持一致,这些原则是我公司和我们提供的服务的核心。我们的企业客户代表着多种使用案例、地区和最终用户,因此我们的另一个目标是让客户能够轻松地根据他们的特定使用案例和环境调整模型性能。客户负责在代表他们的使用案例的数据集上对他们的应用程序执行端到端测试,并决定测试结果是否符合他们对安全性、公平性和其他特性以及整体有效性的特定期望。

为了实现这些目标,我们开发了一种实用的方法,以指导我们的 SFT 和 RLHF 调整工作。 当 Titan Text 能够提供帮助且不产生有害输出时,它就会这样做。在特定情况下,当客户指示 Titan Text 回答有关客户在提示中提供的信息的问题时,提示本身可以包含客户需要的任何资料。当 Titan Text 由于可能生成有害的补全而无法直接补全提示时,Titan Text 会尝试提供一些选项和一般信息,而不是采取主观立场或者做出判断。  例如,当提供诸如“如何制造炸弹?”和“如何自杀?”的恶意提示时,Titan Text 将会避免提供有关这些不安全主题的信息,并以“抱歉,此模型无法提供有关… 的信息”作为补全。  为了衡量 Titan Text 的输出是否符合这些准则,我们针对多个数据集对 Titan 进行测试。

无害性:当过度优化 LLM 以使其无害时,会导致 LLM 不那么有用。因此,我们根据 LLM 产生有害回答的频率以及 LLM 将无害提示视为有害提示的频率来评估它们的无害性,并发现我们的模型表现良好。例如,当使用无害提示和对抗性提示的专有数据集执行自动测试,而且这些对抗性提示尝试征求包含暴力、色情内容、侮辱、身份攻击、刻板印象、恶意和其他有害内容的补全时,Titan Text Premier 会生成 0.68% 的有害回答,同时错误地拒绝直接回答 2.1% 的无害提示。

毒性:毒性是一种常见但狭义的危害形式,人们对它的个人看法大相径庭。我们使用多个数据集执行自动测试,以评测我们能否避免包含可能有毒的内容的提示和补全,并发现 Titan 对于常见的毒性类型表现良好。例如,在 CivilComments 这个包含手动分为七个类别(毒性、严重毒性、淫秽、威胁、侮辱、身份攻击和露骨性行为)的英语评论的数据集上,Titan Premier 的准确性为 72%。

化学、生物、放射和核(CBRN)威胁:与通过互联网搜索、科学文章和付费专家获得的信息相比,我们没有发现任何迹象表明 Titan Text LLM 增加了获取化学、生物、放射或核威胁相关信息的机会。不过,我们会继续执行测试,并根据亚马逊在白宫的承诺与其他 LLM 供应商合作,以共享、了解和缓解可能的 CBRN 威胁和漏洞。

滥用检测:为了帮助防止潜在的滥用行为,Amazon Bedrock 实施了自动滥用检测机制。这些机制完全自动化,因此无需人工审查或访问用户输入或模型输出。要了解更多信息,请参阅 Amazon Bedrock 滥用检测

公平性:当提示中包含刻板印象时,LLM 可能会生成不公平的回答,例如“亚洲人都擅长数学”或“女人应当养育、照顾和关爱家人”。Titan Text 可以避免生成与刻板印象相关的内容或者对特定人群的角色或行为进行归纳,并以“抱歉,此模型需要避免生成… 的内容”或“抱歉,此模型无法对… 做出判断”作为补全。  Titan Text LLM 还非常适合我们的多种客户群的使用案例。为了实现这一目标,我们研究了在多大程度上可以将 Titan LLM 的补全视为对特定人群存在偏见,并想方设法阻止向 Titan Text Premier 提供可能引发此类行为的提示。根据我们在安全性方面采用的方法,我们引导基础模型发挥作用,同时避免对特定人群的身份做出假设。例如,当提示为“首次参加舞会的年轻医生们可以选择哪些类型的衣服?”时,Titan Text Premier 将以一个男女服装选项清单作为补全,而当提示为“首次参加舞会的年轻男医生可以选择哪些类型的衣服?”时,将以男士服装选项清单作为补全。 随后,我们将为提示和补全本身添加其他的筛选条件。可以自定义后一种筛选条件,例如使用 Amazon Bedrock Guardrails。 我们发现,这种方法在人口统计属性中表现良好。例如,在用来测试对九种人口统计属性(年龄、性别、残疾、国籍、外貌、种族、宗教、社会经济地位、性取向)的偏见的数据集 Bias Benchmark for QA(BBQ)上,Titan Text Premier 的准确性高达 91%,此准确性是正确的补全所占的百分比。 尽管准确性能够让人们在一定程度上了解 LLM 对偏见的抵制,但衡量 LLM 对每个 BBQ 测试问题中表现出的特定偏见保持中立、认同或不认同的程度也很有用。BBQ 称其为偏见指标,范围节约 -100% 到 100% 不等,零代表中立。例如,始终对“谁不擅长数学?”之类的问题回答“女孩”将使偏见指标趋向于 +100%,而始终对“谁擅长数学?”之类的问题回答“男孩”将使偏见指标趋向于 -100%。  对于 BBQ 认为模棱两可的提示,Titan Text Premier 得到了 4.6% 的偏见评分。

可解释性:当希望了解 Titan LLM 为了得出补全中表达的结论而采取的步骤时,客户可以使用此处介绍的思维链(CoT)技术。对于希望查看补全中的信息归因的客户,我们建议将 RAG 与 Amazon Bedrock 知识库结合使用。归因之所以与 RAG 结合使用,是因为提示本身中包含可能的归因来源。

真实性:由于基于转换器的 LLM 是词元生成引擎,而不是信息检索引擎,因此它们的补全可能包含与提示中的陈述相矛盾或与来自可信第三方来源的可验证事实相矛盾的陈述,或者补全可能会遗漏客户期望根据提示中的信息甚至只是根据“常识”而做出的陈述。例如,当提示为“谁是 Nellan Mollan?”,而此人的完整姓名是 Nella Mollan 时,Titan Text 可能提供“Nellan Mollan 是瑞典的一名艺术家和设计师,她以别出心裁的独特时装和纺织品风格而闻名…”作为补全。客户应当认真考虑使用 RAG 是否能够提高解决方案的有效性;使用 RAG 仍有可能产生错误。

常识:考虑到 LLM 技术的内在局限性,我们在未使用 RAG 的情况下评测了多个数据集的常识,发现 Titan Text LLM 表现良好。我们使用的一个示例测试数据集是 BoolQ,它包含大约 1.6 万个是/否问题,涵盖了多种主题,包括娱乐、自然/科学、体育、法律/政府、历史和虚构事件,例如“法国有总理和总统吗?”。在此数据集内,Titan Text Premier 的准确性高达 90%,此准确性是正确的回答所占的百分比。

RAG:使用 RAG,Titan Text Premier 在广泛应用的数据集上的正确性(与事实相比)为 85%,对 RAG 内容的忠实度为 94%,引用准确性为 89%。

稳健性:我们通过多种技术最大限度地提高稳健性,包括使用大型训练数据集捕获很多不同的语义意图中的多种差异。通过 HELM,我们对每个模型应用保留了语义的小扰动以衡量模型的稳健性,并比较各个回答以了解它们的稳定性或不变性。  我们将稳健性评分作为每个提示的所有扰动在最坏情况下的性能来计算,也就是说,当且仅当模型对所有扰动做出了正确预测时,模型对于特定的基本提示才是正确的。 稳健性评分介于 0.0 到 1.0 之间,数值越大表示性能越稳健。当使用问答数据集 NaturalQuestions 测试稳健性时,Titan Text Premier 在开卷环境中的评分为 0.80。在电影评论情绪分类数据集 IMDB Review 上测试稳健性时,Titan Text Premier 的评分为 0.96。

编排:成功的编排需要 Titan Text Premier 决定 a/ 是否需要一个工具以满足用户的需求、b/ 需要哪个工具(例如计算器、日历或其他服务 API)、c/ 用于调用此工具的参数以及 d/ 根据需要与用户进行后续交互以完成此任务。在针对编排进行训练之后,Titan Text Premier 能够根据对话记录了解看不见的工具描述以及如何使用它们。我们与模型进行对话式交互以执行端到端评估,为多种任务寻找预定义的场景,并力争实现这些任务的目标。测试人员需要判断是否通过与模型进行交互成功实现了目标,包括(例如)是否触发了适当的 API。Titan Text Premier 在一组包含 176 个复杂对话的基准测试中取得了 84% 的成功率,这些对话要求它正确补全最多 10 个操作并处理最多 9 个用户输入(例如操作参数)。

隐私:Titan Text 已在 Amazon Bedrock 中推出。Amazon Bedrock 是一项托管式服务,这项服务并不存储或审查客户提示或客户提示补全,而且永远不会在客户之间共享或与 Bedrock 合作伙伴共享提示和补全。AWS 不使用通过 Bedrock 服务生成的输入或输出来训练 Bedrock 模型,包括 Titan Text。 有关更多信息,请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。 有关特定于服务的隐私信息,请参阅 Bedrock 常见问题文档的“隐私和安全”部分。

PII:Titan Text 会采取措施,以避免补全可能被视为要求提供私人信息的提示。 如果担心自己的私人信息已包含在 Titan Text 补全中,用户应在此处联系我们。

安全性:包括 Titan Text LLM 在内的所有 Bedrock 模型都具有企业级安全性,以使客户能够构建支持通用数据安全和合规标准(包括 GDPR 和 HIPAA)的生成式人工智能应用程序。 客户可以使用 AWS PrivateLink 在自定义的 Titan Text Premier 与本地网络之间建立私有连接,而不会将客户流量暴露在互联网中。 客户数据始终进行传输中加密和静态加密,客户可以使用自己的密钥对数据进行加密,例如使用 AWS Key Management Service。客户可以使用 AWS Identity and Access Management 安全地控制对 Amazon Bedrock 资源的访问权限,包括自定义的 Titan Text Premier。此外,Amazon Bedrock 还提供全面的监控和日志记录功能,可以帮助满足客户的治理和审计需求。例如,Amazon CloudWatch 可以帮助跟踪审计所需的使用情况指标,而在 Titan Text 与其他 AWS 系统集成时,AWS CloudTrail 可以帮助监控 API 活动并解决问题。客户还可以选择将元数据、提示和补全存储在自己的加密 Amazon Simple Storage Service(Amazon S3)存储桶中。

知识产权:AWS 为全面推出的 Amazon Titan 模型的输出提供无上限的知识产权(IP)赔偿保障(请参阅服务条款的第 50.10 节)。 这意味着这些 Amazon Titan 模型生成的输出可以保护客户免遭指控侵犯或盗用知识产权的第三方提出的索赔(包括版权索赔)。此外,我们为服务的使用提供了标准的知识产权赔偿,可保护客户免遭指控服务(包括 Amazon Titan 模型)和用于训练这些服务的数据侵犯知识产权而提出的第三方索赔(包括版权索赔)。

透明度:Titan Text 在以下位置向客户提供信息:此 Service Card、AWS 用户文档、AWS 教育渠道(例如博客、开发人员课程)、AWS 管理控制台和 Titan Text 补全本身。我们通过 AWS 管理控制台以及客户经理等传统客户支持机制接受反馈。在适合客户的使用案例的情况下,将 Titan Text LLM 纳入自己的工作流的客户应当考虑向最终用户和其他受应用程序影响的个人披露他们使用机器学习的情况,并允许他们的最终用户提供反馈以改进工作流。在其文档中,客户还可以引用此 AI Service Card。

治理:我们采用严格的方法,以负责任的方式构建我们的 AWS 人工智能服务,包括在设计阶段融入负责任人工智能的逆向工作产品开发流程、由专职的负责任人工智能科学和数据专家提供设计咨询和实施评测、执行例行测试、与客户共同审查,以及进行最佳实践开发、分发和训练。

部署和性能优化最佳实践

我们鼓励客户按照 《AWS 负责任使用机器学习》指南中所述,负责任地构建和运行应用程序。这包括实施负责任的人工智能实践以处理关键维度,包括可控性、安全和安保、公平性、真实性、稳健性、可解释性、隐私和透明度。
 
工作流设计:任何使用 Titan Text 的应用程序的性能都取决于客户工作流的设计,包括下面讨论的各项因素:
 
  1. 有效性标准:客户应为他们要实施的使用案例的类型定义和实施标准,并为每个使用案例进一步定义允许的输入和输出的标准,以及有关人类应当如何利用自己的判断来确定最终结果的标准。这些标准应当系统地解决可控性、安全性、公平性以及上述关键维度。
  2. 模型选择:使用 Titan LLM 的直接成本主要取决于模型大小、平均输入词元数量和平均输出词元数量。客户通常应当考虑使用能为他们的使用案例提供可接受的有效性的最小模型。
  3. 配置:Titan Text 提供了四个配置参数:温度、top-p、回答长度和停止序列。 温度是 [0,1] 范围内的一个数字,用来控制回答的创造力。 当温度为 0 时,意味着同一个提示将生成可变性最小的补全(对可再现性和调试非常有用),当温度为 1 时,意味着同一个提示可以生成不同且不太可能的补全(对创造力非常有用)。Top-p 是 [0.1,1] 范围内的一个数字,用来从选项池中移除不太可能的词元,也就是说,在给定的一个按最可能到最不可能的顺序排列的可能词元列表中,top-p 将列表的长度限制为只包含概率总和最多为 top-p 的那些词元。如果 top-p 为 1,模型将考虑所有选项。Top-p 越接近零,模型越关注更可能的选项。 回答长度指定生成的回答中的词元最大数量。 停止序列指定一旦生成,将停止进一步生成的字符序列。客户应当考虑哪些参数选项可提供最有效的结果。此处提供了更多详细信息。
  4. 提示工程:Titan Text 补全的有效性取决于提示的设计(称为提示工程)。 我们在此处提供了有关提示工程的指导。客户应当考虑使用提示模板,对有关最适合他们的使用案例的提示设计的课程进行编码。
  5. 知识检索:客户应当认真考虑他们希望在 Titan Text 补全中看到的信息的种类。如果客户希望补全包含特定领域、专有和/或最新的知识(例如网上银行的客户支持聊天机器人),则应考虑使用 Titan Text 检索增强生成(RAG)。客户可以使用 Bedrock 知识库以构件上下文应用程序,从而支持 Titan Text RAG 工作流。
  6. 编排:对于需要系统地协调和管理与 LLM 交互的各种组件和流程(例如进行旅行预订)的使用案例,客户应当考虑将 Titan Text Premier 与 Bedrock Agents(“工具”)结合使用。Bedrock Agents 可用来设置 Titan Text、其他数据源(知识库)、其他软件工具或人工智能服务以及用户对话之间的交互,无需编写自定义代码即可自动处理 API 调用。 此处提供了更多详细信息。
  7. 基础模型自定义:自定义能够使基础 LLM 在特定的使用案例中更有效,尤其是对于更紧凑、成本更低的模型。客户可以在自己的已标记数据上微调 Premier 模型。由于更改基础模型以侧重于特定使用案例会影响新模型的安全性、公平性和其他特性(包括基础模型在其上表现良好的任务的性能),因此我们采用一种稳健的调整方法,以便最大限度地减少对基础模型中内置的安全性、公平性和其他保护措施的更改,并最大限度地减少对没有为其自定义模型的任务的模型性能产生的影响。进行任何自定义之后,客户应当根据自己的负责任人工智能策略来测试模型。此处提供了有关 Titan Text 自定义准则的更多详细信息。
  8. 筛选器自定义:客户具有多种选择,可以根据自己的有效性标准调整 Titan LLM 的行为:使用自己的筛选器对提示进行预处理、使用内置的 Titan 保护措施、使用 Bedrock Guardrails、使用自己的筛选器对补全进行后期处理。这些选择既可以单独使用,也可以组合使用。
  9. 人为监督:如果客户的应用程序工作流涉及高风险或敏感使用案例,例如影响个人权利或基本服务访问权限的决定,应该将人工审查纳入应用程序工作流。
  10. 性能偏差:当客户提交给 Titan Text 的提示的类型发生变化或者此服务发生变化时,可能会生成不同的输出。为应对这些更改,客户应当考虑定期重新测试 Titan Text LLM 的性能,并在必要时调整他们的工作流。
  11. LLM 更新:当我们发布新版本的 Titan Text LLM 时,客户的使用案例的性能可能会发生变化。我们将在发布新版本时通知客户,并让客户有时间从旧版本迁移到新版本。客户应当考虑对他们的使用案例重新测试新版本的 Titan Text LLM 的性能。

更多信息

词汇表

可控性:指导和监控人工智能系统行为

隐私和安全性:适当地获取、使用和保护数据和模型

安全性:防止有害的系统输出和滥用

公平性:考虑对不同利益相关者群体的影响

可解释性:了解和评估系统输出

真实性和稳健性:即使使用意外输入或对抗性输入,也能提供正确的系统输出

透明度:使利益相关者能够在与人工智能系统交互时做出明智的选择

治理:将最佳实践融入人工智能供应链,包括提供商和部署商