AWS AI Service Card 解释了该服务预期的使用案例、该服务如何使用机器学习(ML),以及负责任地设计和使用服务时的关键注意事项。Service Card 将随着 AWS 收到客户反馈以及服务在其开发过程中的迭代而演变。AWS 建议客户针对他们需要解决的每个使用案例在自己的内容上评测任何 AI 服务的性能。有关更多信息,请参阅《AWS 负责任地使用机器学习》指南和末尾的参考文献。另请务必查看您计划使用的服务的 AWS 负责任的人工智能政策和 AWS 服务条款。
此 AI Service Card 适用于截至 2023 年 11 月 28 日最新版本的 AWS HealthScribe。
概览
AWS HealthScribe 是一项符合 HIPAA 要求的机器学习(ML)功能,旨在帮助医疗保健软件供应商构建临床应用程序,此类应用程序可通过分析患者与临床医生的对话自动生成初步临床记录。AWS HealthScribe 将语音识别和生成式人工智能(AI)相结合,通过转录患者与临床医生的对话和生成更易于查看的临床记录草稿来减轻临床文档方面的负担。借助 AWS HealthScribe,医疗保健软件提供商可以使用单个 API 自动创建可靠的转录、提取关键细节(例如医学术语和药物)、确定说话者角色、对对话进行分类以及根据患者与临床医生的讨论创建摘要,然后将其输入到电子健康记录(EHR)系统中。AWS HealthScribe 通过引用从原始对话转录中生成的每一行文本的来源,实现负责任地部署 AI 系统,从而使临床医生更轻松地在将临床记录输入到 EHR 之前对其进行审查。AWS HealthScribe 在构建时考虑了安全和隐私,让客户可以控制数据存储位置,加密传输中数据和静态数据,并且不使用该服务生成的输入或输出来训练其模型。该 AI Service Card 描述了 AWS HealthScribe 的两个关键功能,即转录和临床记录生成,通过 Transcribe::StartMedicalScribeJob API 实现。
我们通过以下方法评测 AWS HealthScribe 的转录质量:衡量转录中的字词与录音中所说字词的匹配程度,由人类听众决定。当说话者说“The patient has high blood pressure”时,我们希望转录能够反映实际所说的话,而不是包含诸如“The patent has a hyper tension”之类的错误。 可能会出现三种类型的错误:替换(例如用“hyper”代替“high”)、插入多余的单词(如“a”)和删除现有字词(如“blood”)。正确转录的字词视为命中。精确率、召回率、F1 和字词错误率(WER)等质量指标取决于命中和错误的数量。
AWS HealthScribe 中的 ASR 系统经过训练,可以区分说话者和语音内容固有的差异(内在差异)以及与语音本身无关且应被忽略的差异(混杂差异)。内在差异的一些例子包括:(1)语法和句子结构的差异;(2)特定的医学术语和首字母缩略词的使用;以及(3)语气。混杂差异的一些示例包括:(1)背景噪音、回声或房间混响,这些噪音会使录制的语音失真;(2)录音设备的质量和摆放位置;(3)不同地区的方言和口音;以及(4)重叠的语音或中断。系统根据所收集的含有这些差异的数据进行了专门的优化和测试,以提高稳健性。
AWS HealthScribe 的临床记录摘要质量是根据事实完整性、事实正确性和可用性进行评估的。事实完整性衡量的是与临床医生撰写的临床记录相比,人工智能生成的摘要中涵盖的临床事实的百分比。事实正确性衡量的是与原始对话相比,人工智能生成的摘要中事实的准确性。该测量涉及识别人工智能生成的摘要中未包含在原始转录中的任何差异。可用性评估人工智能生成的摘要在满足临床医生需求方面的有效性。它是根据临床医生在连贯性、医学术语、专业精神和临床实用性等各个维度的调查反馈来衡量的。
AWS HealthScribe 临床记录摘要功能的性能受内在因素和混杂因素的影响。内在因素与内容直接相关,包括:(1)原始对话的复杂性和深度;(2)特定医学术语和缩略词的使用;(3)所呈现事实的连贯性和一致性。混杂因素虽然与内容无关,但可能会影响摘要过程。其中包括:(1)存在啰唆、冗长或冗余的内容,这些内容无法为摘要提供有意义的信息;(2)对话中存在潜在的矛盾;(3)作为摘要基础的初始转录的准确性。系统根据所收集的含有这些差异的数据进行了专门的优化和测试,以提高稳健性。
预期使用案例和限制
AWS HealthScribe 旨在帮助医疗保健软件提供商构建临床应用程序,此类应用程序可以根据患者与临床医生对话的录音自动生成初步临床记录和会诊转录。医疗专业人员可以使用这些自动生成的记录来快速审查、编辑和完成临床记录,从而提高他们的工作效率和会诊体验。AWS HealthScribe 还提供证据映射,可将人工智能生成的每句话与转录的相关部分联系起来,从而更轻松地查看和完成记录。
目前,该服务支持以批处理模式进行普通医学和骨科实践的美式英语医学对话。AWS HealthScribe 为临床记录的特定部分生成摘要,包括主诉、现病史、评估、计划等(完整列表请参阅文档)。该服务可以检测对话转录中最多四位说话者并为其分配参与者角色,无论是患者还是临床医生。
但是,客户应意识到系统的局限性。人工智能生成的临床记录旨在提供初步摘要,在最终记录之前需要人工审查和编辑。鉴于其概率性质,人工智能系统可能会产生幻觉或误解转录中的信息。该系统依赖口头信息;因此,就诊期间未口头表达的任何观察结果都不会捕获,这可能会影响记录的完整性。背景噪音、房间回声或由于言语障碍或患者不适等情境因素导致的口齿不清,可能会影响转录的准确性,进而影响临床记录。此外,如果会诊讨论过于复杂、冗长、穿插重叠的语音或中断,或者包含矛盾的信息,则人工智能生成的临床记录中事实的连贯性和准确性可能会受到影响。此外,尽管证据映射为情境理解和审查人工智能生成的内容提供了宝贵的帮助,但请务必记住,这些都是人工智能生成的概率性见解,因此可能存在不准确之处。
AWS HealthScribe 的设计
机器学习:AWS HealthScribe 使用自定义训练的语音识别和生成式人工智能技术构建。它的工作原理如下:(1)识别非语音和语音提示并将其与音频输入分开。(2)生成与音频输入相关的转录。(3)提取说话者角色、转录片段和临床实体等特征。(4)生成结构化的临床摘要以及证据映射,将摘要中的每句话与转录中的相关对话联系起来。有关其他详细信息,请参阅《开发人员指南》和 API 文档。
性能预期:客户应用程序之间的内在差异和混杂差异会有所不同。这意味着即使应用程序支持相同的使用案例,其性能也会有所不同。假设两个医疗保健应用程序 A 和 B。应用程序 A 为临床会诊环境构建了临床文件辅助功能。它可以在录音中容纳多个用户,这些用户可能与麦克风的距离不同。另一方面,应用程序 B 为远程医疗服务提供临床文献见解。它可以捕捉用户在麦克风附近说话,每个录制通道只有一个声音,并且背景噪音干扰最小。由于应用程序 A 和 B 的输入类型不同,因此即使假设每个应用程序都使用 AWS HealthScribe 完美部署,它们也可能会有不同的错误率。
测试驱动的方法:我们使用多个医疗音频数据集来评估性能。任何单一评估数据集都不能代表所有可能的客户使用案例。这是因为评估数据集因其人口构成(已定义群体的数量和类型)、混杂差异数量(内容质量、适合用途)、可用标签的类型和质量以及其他因素而有所不同。 数据集中的群组可以由声学特征(例如音高、音调、语调)、人口统计属性(例如方言、性别、年龄和血统)、混杂变量(特定于频道,例如录音设备品种,以及与词汇复杂度有关,例如会诊时长、使用的专业术语数量等)或全部三者的混合来定义。不同的评估数据集因这些因素和其他因素而异。因此,所有指标(包括总体指标和群体指标)因数据集而异。考虑到这种差异,我们的开发过程使用多个评估数据集来检查 AWS HealthScribe 的性能,采取措施提高人工智能性能最差的群体的准确性,努力改进评估数据集套件,然后进行迭代。
公平性和偏差:我们的目标是让 AWS HealthScribe(1)准确地转录医疗会诊音频,(2)准确地转录和总结临床记录,以实现患者/临床医生互动的多样性。为此,我们使用上面描述的迭代开发过程。在此过程中,我们构建数据集,以涵盖各种混杂因素下广泛类型的人类语音和声学特征。我们会在拥有可靠和自行报告的人口统计标签的数据集上定期进行测试。我们根据血统、年龄和性别等人口统计属性来定义说话者群体。举例来说,在一个照书面稿念的临床医生/患者对话数据集中(该数据集可以减少不照书面稿念的语音引入的对话难度差异),我们发现在 28 个人口统计群体(例如女性 + 亚洲血统、男性 + 欧洲血统)中,每组说话者的 F1 单词识别(所有单词,包括医学术语)准确率为 84% 或更高。我们使用相同的数据集来衡量生成的摘要与人类临床医生提取的一组相应事实相比较的完整程度,以及生成的摘要与会诊记录相比的忠实程度。在此测试中,我们发现事实完整性和事实正确性的摘要 F1 分数为 72%。由于结果取决于 AWS HealthScribe、客户工作流程和测试数据集,因此客户应根据自己的内容测试 AWS HealthScribe,并遵循下文中的工作流程设计部分中的建议。
可解释性:AWS HealthScribe 会返回音频中转录的每个单词的时间戳和置信度分数。客户可以使用时间戳来找到输入音频的片段并验证转录内容。为了实现笔记生成功能,AWS HealthScribe 提供摘要以及证据映射,将摘要中的每句话与转录中的相关对话关联起来。客户可以使用证据映射来验证和理解见解背后的情景。
稳健性:为了测试 AWS HealthScribe 转录和摘要功能的稳健性,我们评估了不同医疗会诊环境中各种数据集的性能。该人工智能系统经过训练,可在各种声学环境下(例如录音质量、背景噪音和房间混响)保持弹性。此外,它经过优化,可以处理不同长度的会诊,涵盖多种疾病,并适应各种临床医生和患者的独特说话风格。
隐私和安全性:AWS HealthScribe 仅处理音频输入数据。音频输入绝不会包含在服务返回的输出中。客户之间绝不会共享输入和输出。AWS HealthScribe 没有针对客户内容进行训练。有关更多信息,请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。有关特定服务的隐私和安全信息,请参阅 AWS HealthScribe 常见问题。
透明度:如果适合其使用案例,则鼓励将 AWS HealthScribe 纳入其工作流程的客户向最终用户和其他受应用程序影响的个人披露其使用 ML 和 ASR 技术的情况,并且支持最终用户提供反馈以改进工作流程。在其文档中,客户还可以引用此 AI Service Card。
治理:我们采用严格的方法,以负责任的方式构建我们的 AWS AI 服务,包括在设计阶段融入负责任的人工智能的逆向工作产品开发流程,由专职的负责任的人工智能科学和数据专家设计咨询和实施评测,执行例行测试,与客户共同审查,以及进行最佳实践开发、分发和培训。
部署和性能优化最佳实践
- 录制条件:理想的音频输入背景噪音应在适度到极少范围内。工作流程应包括解决使用案例特定录制条件差异的步骤。
- 文件类型/采样率:为获得最佳效果,请使用采用 PCM 16 位编码的无损音频格式,例如 FLAC 或 WAV。AWS HealthScribe 支持 16,000 Hz 或更高的采样率。
- 自定义词汇表:AWS HealthScribe 可识别在各种说话者社区(方言地区)中使用的词汇表。如果客户想要为特定域名或情况的单词(例如品牌名称或专有名词和首字母缩略词)提供额外支持,则其可以部署自定义词汇表来提高此类单词的转录准确性。有关更多信息,请参阅自定义词汇表的文档。
- 人工监督:AWS HealthScribe 得出的结果是概率性的,准确性可能会受到上述各种混杂因素的影响。不应使用 AWS HealthScribe 来完全自动化临床记录工作流程,而应在记录过程中,用其为临床医生或医学抄写员提供帮助。我们建议在工作流程中提供证据映射功能,以帮助用户轻松了解情境和验证的见解来源。AWS HealthScribe 的使用受 AWS 负责任的人工智能政策的约束。在使用 AWS HealthScribe 输出之前,请先查看此政策,包括作为实施适当的人工监督、测试和其他特定于使用案例的保护措施的一部分。
- 一致性:客户应针对允许的各种音频输入制定和执行策略,以及针对人工如何使用自己的判断来评估 AWS HealthScribe 输出制定和执行策略。这些策略应在所有人口群体中保持一致。不一致地修改音频输入可能会给不同的人口群体带来不公平的结果。
- 性能偏差:随着时间的推移,客户提交给 AWS HealthScribe 的音频种类的变化以及支持这些功能的模型的更新可能会导致不同的输出。为应对这些更改,客户应考虑定期重新测试 AWS HealthScribe 的性能,并在必要时调整工作流程。
更多信息
- 有关服务文档,请参阅 AWS HealthScribe
- 有关隐私和其他法律注意事项的详细信息,请参阅法律、合规、隐私。
- 要帮助优化工作流程,请参阅 AWS 客户支持、AWS 专业服务团队、Amazon SageMaker Ground Truth Plus、Amazon Augmented AI。
- 如果您对 AWS AI Service Card 有任何疑问或反馈,请填写此表单。
词汇表
公平性和偏见是指人工智能系统如何影响不同的用户亚群(例如,按性别、种族)。
可解释性是指拥有理解和评估人工智能系统输出的机制。
稳定性是指拥有确保人工智能系统可靠运行的机制。
隐私与安全性是指保护数据免遭盗窃和泄露。
治理是指采用流程在组织内定义、实施和执行负责任的人工智能实践。
透明度是指交流有关人工智能系统的信息,以便利益相关者能够就其是否使用该系统做出明智的选择。