Amazon Transcribe 毒舌监察功能 – 负责任的人工智能 Service Card

概览

Amazon Transcribe 毒舌监察功能是 Amazon Transcribe 的功能之一，它能够帮助客户根据分配给音频输入的分数，检测出人类审核员可能认为有害的音频内容。该 AI Service Card 描述了负责任地监察人类语音中潜在有害内容的注意事项，使用案例包括在线游戏语音聊天、社交媒体，以及客户有加强人文内容审核需求的点对点对话平台。该功能通过用于自动语音识别（ASR）的 Transcribe::StartTranscriptionJob API 以及启用 ToxicityDetection 参数来进行配置。Transcribe 毒舌监察功能使用基于语音和基于文本的线索来识别整体有害性，以及在七个有害类别中的具体表现，无论有害性是通过文字还是语气表达出来。为了负责任地使用自动语音识别（ASR），请参阅 Amazon Transcribe – Batch（English-US）AI Service Card。

Transcribe 毒舌监察功能返回的分数表明音频输入包含有害内容的置信度。总体有害性和按类别划分的有害性的最低置信度分数为 0.0，表示不可能有有害内容，最高分数为 1.0，表示有有害内容的可能性最大。Transcribe 毒舌监察功能将有害内容分为七个类别：（1）亵渎，指包含不礼貌、粗俗或令人反感的词语、短语或首字母缩略词的言语。（2）仇恨言论，指基于身份（例如种族、民族、性别、宗教、性取向、能力和国籍）批评、谴责个人或群体或贬低其人格的言论。（3）性，指直接或间接提及身体部位、身体特征或性来表明性兴趣、性活动或性兴奋的言论。（4）侮辱，指包含贬低、羞辱、嘲笑、侮辱或轻视语言的言论。（5）暴力或威胁，指包含试图对个人或群体造成身体、情感或心理伤害的威胁的言论。（6）图片，指使用视觉描述性和令人不快的生动图像的发言。这种语言通常会故意使用过于详细的描述，以加剧受众的不适感。（7）骚扰或虐待，指旨在影响受众心理健康的互动，包括贬低和物化的用语。各个类别并不相互排斥，可能会有重叠。重叠示例包括具有特定语言的内容，这些语言会同时被归类为亵渎、侮辱和仇恨言论。

我们通过衡量系统监察非毒舌实例（称为“无害召回”）和毒舌实例（称为“有害召回”）的准确性来评测 Transcribe 毒舌监察功能的质量。根据训练有素的人类内容审核员的主观判断，当说话者的发言包含有害和无害内容的示例时，我们预计发言中的有害内容具有高有害召回率，无害内容则具有高无害召回率。

有害分类是主观的，不同的人可能对其有不同的看法，尤其是在考虑到语气、情感、身体手势和面部表情等多种模式时。有害性还取决于背景，可能因社会环境和历史背景而异。Transcribe 毒舌监察功能对音频信号中存在的人类语音发挥作用，检测大多数人类内容审核员都认同的有害实例。旨在区分有助于区分无害和有害意图（内在）的音频信号差异类型和应忽略的（混杂）音频信号差异类型。内在差异的一些示例包括：（1）词汇和俚语的使用；（2）语法和发音；（3）语气。混杂差异的一些示例包括：（1）方言和口音；（2）背景噪音和回声；（3）录音设备；（4）混叠语音。系统使用专门收集的数据进行训练，同时考虑了这些差异，以提高稳健性。

预期使用案例和限制

Transcribe 毒舌监察功能支持对包括语音聊天功能在内的多种应用程序进行内容审核。该服务可处理非实时音频文件中包含的美式英语语音（批处理模式）。Transcribe 毒舌监察功能无法检测所有类型的有害内容。例如，不支持刻板印象或儿童性虐待材料（CSAM）等类别。在评估中，我们根据测试数据集（其中包括系统支持的所有有害类别的示例）校准了置信度分数。

语音聊天使用案例：语音聊天应用程序对单个或多个说话者音频使用毒舌监察功能来识别有害内容。如果置信度分数超过设定值，客户可以使用阈值（将值设置在 0 到 1 之间）作为是否有害的决策点。这让客户可以针对整体有害性和每个类别创建过滤器。在该使用案例中，一些客户可能希望允许在语音聊天应用程序中友好玩笑调侃，如果是这样，请在语音聊天应用程序中将阈值设置在用户可以更畅所欲言的水平上，把特定上下文行话和温和的垃圾谈话内容与有害内容区分开来。其他客户应用程序可能侧重于通过设置更高的阈值来维护更包容的环境。在这个使用案例中，说话者和情境存在很大差异，因此客户应仔细考虑适合其应用程序的阈值。有关如何对阈值进行实验的其他指导，请参见下面的“工作流程设计”部分。

Transcribe 毒舌监察功能的设计

机器学习：Transcribe 毒舌监察功能使用机器学习和 ASR 技术构建。其工作原理如下：（1）对音频输入进行分段，并针对每个音频片段提取相关的声学特征。（2）生成与音频输入相关的转录文本，并提取文本形式的相关特征。（3）将声学和文本特征与对话情境相结合，生成总体有害性的置信度分数，以及所有片段有害内容类别的置信度分数。有关其他详细信息，请参阅开发人员文档和 API 文档。

性能预期：客户应用程序之间的内在差异和混杂差异会有所不同。这意味着即使应用程序支持相同的使用案例，其性能也会有所不同。以两个毒舌监察应用程序 A 和 B 为例。应用程序 A 支持一款热门在线游戏的语音聊天，每个记录通道都有多个声音以不同的兴奋程度说话，麦克风的质量参差不齐，背景噪音也很大。应用程序 B 支持移动社交媒体应用程序中的语音聊天，该社交媒体应用程序每个通道有两个说话者，配有高质量麦克风，背景噪音可以忽略不计。由于应用程序 A 和 B 的输入类型不同，因此即使假设每个应用程序都使用 Transcribe 毒舌监察功能完美部署，它们也可能会有不同的准确率。对于模型性能更新，客户可以期望提高一致性和阈值选择的准确度指标方面的改进。

测试驱动的方法：我们使用多个音频数据集来评估性能。任何单一评估数据集都不能代表所有可能的客户使用案例。这是因为评估数据集因其人口构成（已定义群体的数量和类型）、混杂差异数量（内容质量、适合用途）、可用标签的类型和质量以及其他因素而有所不同。我们通过使用包含有害和无害录音的评估数据集进行测试来衡量毒舌监察性能。数据集中的群体由说话者及其音频样本组成，后者可以由声学特征（例如音高、音调、语调）、人口统计属性（例如方言、性别、年龄和血统）、混杂差异（例如录音设备品种、每位说话者与录音设备的距离、后处理和背景噪音）或三者混合来定义。不同的评估数据集因这些因素和其他因素而异。因此，所有指标（包括总体指标和群体指标）因数据集而异。考虑到这种差异，我们的开发过程会使用不同评估数据集来检查 Transcribe 毒舌监察功能的性能，采取措施提高服务表现最差的群体的准确性，努力改进评估数据集的有效性，以识别不同说话者群体的表现，然后进行迭代。

公平与偏见：我们的目标是通过 Transcribe 毒舌监察功能，准确识别（a）来自不同说话者，以及（b）针对不同身份群体的美式英语语音中的有害内容。我们会考虑区域方言（例如低地南部或纽约市）定义的说话者群体，母语或非母语等语言学习方法，以及诸如血统、年龄和性别等人口群体。我们会针对女性、身心残障人士、国籍以及其他身份群体测试有害内容。为此，我们使用上面描述的迭代开发过程。在此过程中，我们构建数据集，以涵盖各种混杂因素下广泛类型的人类语音和声学特征。我们会定期利用具有可靠自我报告的人口统计标签以及经过真人验证的有害性标签的数据集进行测试。例如，在一个由来自 65 个人口群体的独特说话者组成的无害自然语音数据集中，我们发现系统为每个群体和每个交叉点（例如，男性 + 亚洲血统）的说话者示例贴上无害标签的正确率达到 94% 或以上。我们针对涉及 13 个身份群体的有害和无害陈述的综合数据集评估有害言语。之所以使用综合数据集是为了：（1）严格控制口头陈述的内在差异；（2）避免人类遭受阅读和说出极具攻击性的言论的潜在危害。在这个阈值设定为 0.6 的综合数据集上，我们发现系统正确对就提及的每个身份群体的个人陈述（平均陈述长度为 20 个词）贴上有害标签的正确率达到 61% 或以上。在典型的内容审核使用案例中，这意味着在五个对话回合内使用有害语言的说话者被检测到的概率为 90％，而在相同回合数内惩罚无害说话者的可能性则很低（23％）；此处假设词语的回合长度与我们测试集中的陈述长度相似。由于结果取决于 Transcribe 毒舌监察功能、客户工作流程和评估数据集，因此我们建议客户测试自己的内容，针对该内容校准阈值，并与人类内容审核员一起验证结果。

可解释性：Transcribe 毒舌监察功能返回被检测为有害内容的转录片段的开始和结束时间戳。客户可以通过这些开始和结束时间戳来找到输入音频的片段，并聆听和验证有害内容检测结果。

稳健性：我们依靠对各种数据集的召回率分析来测试系统的稳健性，评估无害语音被识别为有害的可能性。该功能经过训练，可在各种声学环境下（例如录音质量、背景噪音和房间混响）保持弹性。系统直接作用于音频，旨在稳健适应语气和对话环境。

隐私与安全性：Transcribe 毒舌监察功能仅处理音频输入数据。音频输入绝不会包含在服务返回的输出中。客户之间绝不会共享音频输入和服务输出。客户可以通过 AWS Organizations 或我们可能提供的其他选择退出机制选择退出有关客户内容的培训。有关更多信息，请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。有关特定于服务的隐私与安全性信息，请参阅 Transcribe 常见问题的“数据隐私”部分和 Amazon Transcribe 安全文档。

治理：我们采用严格的方法，以负责任的方式构建我们的 AWS AI 服务，包括在设计阶段融入负责任的人工智能的逆向工作产品开发流程，由专职的负责任的人工智能科学和数据专家设计咨询和实施评测，执行例行测试，与客户共同审查，以及进行最佳实践开发、分发和培训。

部署和性能优化最佳实践

我们鼓励客户按照《AWS 负责任使用机器学习》指南中所述，负责任地构建和运行应用程序。这包括实施负责任的人工智能实践以处理关键维度，涵盖公平性和偏见、稳定性、可解释性、隐私和安全性、透明度和治理。

工作流程设计：任何使用 Transcribe 毒舌监察功能的应用程序的性能都取决于客户工作流程设计。“预期使用案例”部分讨论了背景噪音、录音设备等条件。根据应用程序的不同，Transcribe 客户可能会对这些条件进行优化，并且定义从最终用户处采集音频的工作流程。Transcribe 为客户提供用于在 API 中优化识别性能的各种特征。置信度阈值、人工监督、工作流程一致性和定期测试性能偏差也是关键考虑因素，这些考虑因素由客户控制，有助于获得准确、公平的结果。

录制条件：理想的音频输入背景噪音应在适度到极少范围内。工作流程应包括解决使用案例特定录制条件差异的步骤。
置信度阈值：我们建议客户从阈值 0.5 开始试验其内容的性能表现，然后按 0.05 递增或递减。拥有已标记评估数据集的客户可以针对其特定使用案例校准阈值。
人工监督：应酌情将人工审核纳入应用程序工作流程。支持有害内容分类的 ASR 系统可以作为工具，减少全手动解决方案带来的工作量，并允许人类审核员快速审核和评测音频以做出审核决定。
一致性：客户应针对允许的各种音频输入制定和执行策略，以及针对人类如何运用自己的判断来评测有害内容检测输入制定和执行策略。这些策略应在所有人口群体中保持一致。不一致地修改音频输入可能会给不同的人口群体带来不公平的结果。
性能偏差：随着时间的推移，对支持该功能的模型的更新可能会导致不同的输出。为了应对这些更改，客户应考虑定期重新测试毒舌监察功能的性能，并在必要时调整工作流程。

词汇表

公平性和偏见是指人工智能系统如何影响不同的用户亚群（例如，按性别、种族）。

可解释性是指拥有理解和评估人工智能系统输出的机制。

稳定性是指拥有确保人工智能系统可靠运行的机制。

隐私与安全性是指保护数据免遭盗窃和泄露。

治理是指采用流程在组织内定义、实施和执行负责任的人工智能实践。

透明度是指交流有关人工智能系统的信息，以便利益相关者能够就其是否使用该系统做出明智的选择。

AWS AI Service Card – Amazon Transcribe 毒舌监察功能

概览

预期使用案例和限制

Transcribe 毒舌监察功能的设计

部署和性能优化最佳实践

更多信息

词汇表

终止对 Internet Explorer 的支持