Visão geral

O Amazon Transcribe permite que os clientes da AWS adicionem recursos de conversão de fala em texto a aplicações habilitadas por voz. Usando a tecnologia de Automatic Speech Recognition (ASR – Reconhecimento automático de fala), os clientes podem usar o Amazon Transcribe para uma variedade de aplicações de negócios. Os recursos fornecidos pelo serviço incluem reconhecimento automático de fala, diarização de locutores, remoção de informações de identificação pessoal (PII) e identificação de idioma. Consulte a documentação para obter detalhes adicionais. Este cartão de serviço de IA descreve um desses recursos, o Transcribe – Lote (inglês americano), implementado pela API Transcribe::StartTranscriptionJob. Esse recurso executa o ASR na localidade en-US com largura de banda baixa (8 kHz) ou alta (16 kHz). Ele processa gravações de fala disponibilizadas em arquivos de áudio estático (modo lote). Para obter ASR quase em tempo real em transmissões de mídia, consulte a API Transcribe::StartStreamTranscription.

Avaliamos a qualidade do Transcribe Speech medindo a correspondência entre as palavras de uma transcrição de ASR e as palavras de uma amostra transcritas por um ouvinte humano. Quando um locutor diz “Este sistema pode realmente reconhecer a fala”, esperamos que a transcrição contenha as palavras faladas, e não “Este sistema pode lembrar uma boa escala”. Uma transcrição pode apresentar três tipos de erros: substituições (“escala” por “fala”), inserções (palavras extras, como “boa”) e exclusões (palavras ausentes, como “realmente”). Palavras corretamente transcritas são chamadas de acertos. Métricas de qualidade, como precisão, revocação, pontuação F1 e word error rate (WER – Taxa de erro de palavras), dependem do número de acertos e erros.

Há vários fatores que afetam a precisão de qualquer sistema de ASR. O sinal do áudio de entrada é a fala em si, modificada por diversos fatores de confundimento. Palavras e enunciados individuais diferem entre falantes na frequência com que são usados, pronunciados e combinados com outras palavras. Palavras que diferem em ortografia e significado podem não diferir em som. Os locutores podem se sobrepor ou interromper um ao outro. Os dispositivos de gravação diferem em qualidade e posição em relação ao locutor (por exemplo, campo distante versus campo próximo). Os ambientes de gravação podem ter níveis diferentes de ruído de fundo, suscetibilidade ao eco e presença de outros locutores. O nível de ruído varia nas linhas de transmissão. O Transcribe foi projetado para distinguir o áudio de palavras diferentes e ignorar as variáveis de confundimento.

Casos de uso pretendidos e limitações

O Transcribe – Lote (inglês americano) se destina ao uso em amostras de áudio que contêm fala humana natural. Ele não foi projetado para fala transformada mecânica ou digitalmente ou fala sintética e tem o objetivo de transcrever palavras em inglês americano. Consulte Supported Languages para saber quais são as localidades de idiomas adicionais. O Transcribe oferece suporte a um grande vocabulário de uso geral, e os clientes podem adicionar vocabulários personalizados e modelos de linguagem personalizados para abranger palavras e expressões de domínios especializados. O Transcribe suporta o particionamento de falantes, também conhecido como diarização. Até 10 falantes singulares podem ser identificados com a ativação do particionamento de falantes na chamada de API.

O Transcribe em lotes (inglês americano) tem muitas aplicações possíveis, como análises de centrais de atendimento (sentimento/categorização/velocidade da fala), transcrição de mensagens de voz, legendas de reuniões, legendas para conteúdo de mídia (áudio ou vídeo) e pesquisa/análise de palavras-chave, incluindo catalogação ou indexação de arquivos de mídia. O design dessa aplicações variam em: 1) número de locutores; 2) número de locutores por canal (ou seja, por dispositivo de gravação, como um laptop ou telefone celular); 3) estilo de fala empregado pelos locutores; 4) condição da gravação (como localização e equipamento); e outros fatores. Por exemplo, uma aplicação de transcrição de uma central de atendimento provavelmente tem dois locutores (um por canal), gravação em campo próximo (com a boca do locutor perto do microfone) e alto ruído de fundo, tanto do ambiente doméstico de quem faz a chamada como do ambiente de trabalho do operador. Um segundo exemplo é um aplicação de legenda oculta para vídeos educativos, um ponto de entrada para análise de mídia, indexação e pesquisa. Nessa aplicação, esperamos ter vários locutores, um canal de áudio compartilhado entre todos os locutores, fala roteirizada (com menos palavras desnecessárias, pausas e disfluências, porém um número maior de jargões específicos do domínio) e níveis mais baixos de ruído de fundo e outras oclusões de áudio.

Design do Transcribe – Lote (inglês americano)

Machine learning: o Transcribe é criado usando a tecnologia de ML e ASR. As etapas seguidas são: (1) Identificar as características acústicas relevantes da entrada de áudio. (2) Gerar um conjunto de cadeias de caracteres candidatas por palavra com base nesses recursos. (3) Aplicar a modelagem de linguagem para classificar os candidatos e retornar a transcrição de classificação maior. Consulte a documentação do desenvolvedor para obter detalhes sobre as chamadas de API.

Expectativas de performance: a variação individual e de confundimento será diferente entre as aplicações dos clientes. Isso significa que a performance também será diferente entre as aplicações, mesmo oferecendo suporte ao mesmo caso de uso. Considere duas aplicações de transcrição, A e B. A aplicação A permite criar legendas para um programa de entrevistas na TV e tem várias vozes por canal de gravação, microfones direcionais de alta qualidade e ruído de fundo insignificante. A aplicação B ajuda a gravar chamadas que os clientes fazem à central de atendimento. Nessa aplicação, as pessoas falam perto do microfone, há uma voz por canal de gravação e o diálogo com o cliente é improvisado. Como A e B usam tipos de entradas diferentes, as taxas de erro provavelmente serão diferentes, mesmo supondo que cada aplicação seja implantada com perfeição usando o Transcribe.

Metodologia baseada em testes: usamos vários conjuntos de dados para avaliar a performance. Nenhum conjunto de dados de avaliação fornece uma imagem absoluta da performance. Isso ocorre porque os conjuntos de dados de avaliação variam com base em sua composição demográfica (número e tipo de grupos definidos), na quantidade de variações de confundimento (qualidade do conteúdo, adequação à finalidade) e nos tipos e a qualidade dos rótulos disponíveis, entre outros fatores. Medimos a performance do Transcribe por testes realizados em conjuntos de dados de avaliação contendo gravações de áudio de diversos locutores que são representativos da população de usuários finais, onde cada gravação é rotulada com transcrições confiáveis de referência e atributos demográficos do locutor. A performance geral em um conjunto de dados é representada por várias métricas, incluindo taxa de erro de palavras e pontuação F1, um fator que equilibra a porcentagem de palavras previstas corretas (precisão) e a porcentagem de palavras corretas incluídas na previsão (revocação). Os grupos em um conjunto de dados podem ser definidos por atributos demográficos (como gênero, idade e raça), variáveis de confusão (tipos de equipamentos de gravação, distância do locutor ao equipamento de gravação, pós-processamento e ruídos de fundo) ou uma combinação dos dois. Diferentes conjuntos de dados de avaliação usam fatores diferentes, sejam esses ou outros. Por esse motivo, todas as métricas, tanto gerais quanto para grupos, variam entre conjuntos de dados. Levando em consideração essa variação, nosso processo de desenvolvimento examina a performance do Transcribe usando vários conjuntos de dados de avaliação, toma medidas para aumentar a precisão nos grupos em que a performance do Transcribe foi inferior, melhora os conjuntos de dados de avaliação e, em seguida, itera o processo.

Imparcialidade e tendências: nosso objetivo é que o Transcribe – em lotes (inglês americano) funcione bem para falantes de inglês americano em toda a variedade de pronúncias, entonações, vocabulários e atributos gramaticais que esses falantes possam usar. Consideramos comunidades de falantes definidas por regiões, como a região centro-oeste ou a cidade de Nova York, e comunidades definidas por várias dimensões de identidade, incluindo ancestralidade, idade e gênero. Para conseguir isso, usamos o processo de desenvolvimento iterativo descrito acima. Como parte desse processo, criamos conjuntos de dados para captar uma grande variedade de falantes humanos sob uma ampla gama de variáveis de confundimento. Realizamos rotineiramente testes usando conjuntos de dados para os quais temos rótulos demográficos confiáveis Constatamos que o Transcribe tem uma boa performance em todos os atributos demográficos. Como exemplo, em um conjunto de dados de fala natural com 65 grupos demográficos, definidos por idade, ancestralidade, sexo e dialeto regional (como feminino+europeu, masculino+menor de 45 anos), descobrimos que a precisão do reconhecimento de palavras F1 é de 92% ou mais para cada grupo de falantes. Para transcrições com particionamento de falantes (diarização) ativado, no mesmo conjunto de dados, descobrimos que a precisão da diarização é de 98% ou maior para cada grupo de falantes. Como os resultados dependem do Transcribe, do fluxo de trabalho do cliente e do conjunto de dados de avaliação, recomendamos que os clientes testem o Transcribe no próprio conteúdo.

Explicabilidade: ao transcrever áudio, o Amazon Transcribe cria versões diferentes da mesma transcrição e atribui uma pontuação de confiança a cada versão. Se o cliente habilitar transcrições alternativas, o Amazon Transcribe retornará as versões alternativas da transcrição que tiverem níveis de confiança mais baixos. Os clientes podem explorar as transcrições alternativas para obter mais informações sobre as palavras e frases candidatas geradas para cada entrada de áudio.

Robustez: maximizamos a robustez com várias técnicas, incluindo o uso de grandes conjuntos de dados de treinamento que captam diversos tipos de variação entre um grande número de indivíduos. As entradas de áudio ideais de ASR do Transcribe contêm áudio com alta qualidade de gravação, baixo ruído de fundo e baixa reverberação do ambiente. No entanto, o Transcribe é treinado para ser resiliente mesmo quando as entradas não atendem às condições ideais e pode funcionar bem em configurações ruidosas e com vários falantes.

Privacidade e segurança: o Amazon Transcribe processa somente dados de entrada de áudio. As entradas de áudio nunca são incluídas na saída retornada pelo serviço. As entradas e saídas nunca são compartilhadas entre clientes. Os clientes podem optar por não participar do treinamento sobre conteúdo de clientes por meio do AWS Organizations ou de outros mecanismos de exclusão que podemos fornecer. Consulte a Seção 50.3 dos Termos de Serviço da AWS e as Perguntas frequentes sobre privacidade de dados da AWS para obter mais informações. Para obter informações de privacidade e segurança específicas do serviço, consulte a seção Privacidade de dados das perguntas frequentes do Transcribe e a documentação de Segurança do Amazon Transcribe.

Transparência: quando apropriado para um caso de uso, os clientes que incorporam o Amazon Transcribe nos fluxos de trabalho são encorajados a declarar o uso da tecnologia de ML e ASR para os usuários finais e outras pessoas afetadas pela aplicação, e a oferecer aos usuários finais a opção de fornecer feedback para melhorar os fluxos de trabalho. A documentação do cliente pode fazer referência a este cartão de serviço de IA.

Governança: seguimos metodologias rigorosas para criar os serviços de IA da AWS de forma responsável, incluindo um processo de trabalho em ordem inversa para desenvolvimento de produtos que incorpora a IA responsável na fase de design, consultas de design e avaliações de implementação por especialistas dedicados em dados e ciência de IA responsável, testes de rotina, revisões com clientes e práticas recomendadas de desenvolvimento, disseminação e treinamento.

Práticas recomendadas de implantação e otimização de performance

Incentivamos os clientes a criar e operar suas aplicações com responsabilidade, conforme descrito no guia Responsible Use of Machine Learning da AWS. Isso inclui a implementação de práticas de IA responsável para lidar com aspectos essenciais, incluindo imparcialidade e viés, robustez, explicabilidade, privacidade e segurança, transparência e governança.
 
Design do fluxo de trabalho: a performance de qualquer aplicação usando o Transcribe depende do design do fluxo de trabalho do cliente. Condições como ruído de fundo, equipamento de gravação e outras são discutidas na seção sobre os casos de uso pretendidos. Dependendo da aplicação, essas condições podem ser otimizadas pelos clientes do Transcribe, que definem o fluxo de trabalho em que o áudio é capturado dos usuários finais. O Transcribe fornece recursos para que os clientes otimizem a performance do reconhecimento na API. Esses recursos incluem condições de gravação, taxas de amostragem, vocabulários personalizados, modelos de linguagem personalizados e filtragem de vocabulário ou informações de identificação pessoal (PII). A supervisão humana, a consistência do fluxo de trabalho e testes periódicos de variação de performance também são considerações críticas que estão sob o controle dos clientes e contribuem para resultados precisos e imparciais.
 
  1. Condições de gravação: os fluxos de trabalho devem incluir etapas para lidar com a variação nas condições de gravação, como distância do microfone ou condições de ruído. Se a variação for alta, considere oferecer auxílio e instruções acessíveis a todos os usuários finais e monitore a qualidade da gravação com amostragens periódicas e aleatórias das entradas.

  2. Taxas de amostragem: os clientes têm um parâmetro opcional para especificar a taxa de amostragem do áudio de entrada, seja com entradas de menor largura de banda (8 kHz) ou de banda larga (16 kHz).

  3. Vocabulários personalizados: o Transcribe reconhece o vocabulário usado por diversas comunidades de locutores (regiões dialetais, grupos demográficos). Se desejarem ampliar o suporte para incluir palavras específicas a um domínio ou situação, como nomes de marcas, substantivos próprios e siglas, os clientes poderão implantar vocabulários personalizados para melhorar a precisão da transcrição dessas palavras. Para obter mais informações, consulte Custom Vocabularies.

  4. Modelos de linguagem personalizados: quando a aplicação do cliente precisa lidar com a fala de um domínio cuja complexidade inclui mais do que palavras isoladas, será possível usar modelos de linguagem personalizados para melhorar a precisão da transcrição. Por exemplo, ao transcrever gravações sobre basquete, é possível aumentar a precisão da transcrição aprendendo o contexto em que as palavras aparecem (como “cesta” versus “sexta”). Nesse caso, os clientes podem treinar um modelo de linguagem personalizado para reconhecer termos especializados. Para obter mais informações, consulte a documentação sobre Custom Language Models.

  5. Filtragem de vocabulário e remoção de PII: essas otimizações podem melhorar a segurança e a privacidade da linguagem produzida nas transcrições. A filtragem de vocabulário permite mascarar ou remover palavras sensíveis ou inadequadas para o público dos resultados da transcrição, com base em uma lista definida pelo cliente. A remoção de PII permite que os clientes gerem uma transcrição sem essas informações, com base nos tipos de PII que o Transcribe – Lote (inglês americano) identifica. Elas incluem nome, endereço, número do cartão de crédito, número do seguro social e outros. Para obter mais informações, incluindo uma lista completa dos tipos de PII e considerações sobre o uso da redação de PII para workloads regulamentadas, consulte a documentação sobre filtragem de vocabulário e remoção de PII.

  6. Supervisão humana: se o fluxo de trabalho da aplicação do cliente envolver um caso de uso confidencial ou de alto risco, como uma decisão que afeta os direitos de uma pessoa ou o acesso a serviços essenciais, recomendamos incorporar a análise humana, quando apropriado. Os sistemas de ASR podem servir como ferramentas para reduzir o esforço inerente a soluções totalmente manuais e permitir que humanos revisem e avaliem rapidamente o conteúdo do áudio.

  7. Consistência: os clientes devem definir e aplicar políticas que identifiquem os tipos de personalização de fluxo de trabalho e entradas de áudio permitidos e determinem como humanos usam o próprio julgamento para avaliar as saídas do Transcribe. Essas políticas devem ser consistentes entre grupos demográficos. A modificação inconsistente das entradas de áudio pode levar a resultados injustos para diferentes grupos demográficos.

  8. Desvio de performance: uma alteração nos tipos de áudio que um cliente envia ao Transcribe, ou uma alteração no serviço, pode levar a resultados diferentes. Para lidar com essas mudanças, os clientes devem considerar repetir periodicamente os testes de performance do Transcribe e ajustar o fluxo de trabalho quando necessário.

Mais informações

Glossário

Imparcialidade e viés se referem a como um sistema de IA afeta diferentes subpopulações de usuários (por exemplo, por gênero, etnia).

Explicabilidade se refere a ter mecanismos para entender e avaliar as saídas de um sistema de IA.

Robustez se refere a ter mecanismos para garantir que um sistema de IA opere de forma confiável.

Privacidade e segurança se referem à proteção dos dados contra roubo e exposição.

Governança se refere a ter processos para definir, implementar e aplicar práticas de IA responsável na organização.

Transparência se refere a comunicar informações sobre um sistema de IA para que as partes interessadas possam fazer escolhas informadas sobre o uso do sistema.