Recursos do Amazon Polly
API simples de usar
O Amazon Polly disponibiliza uma API que permite integrar rapidamente síntese de fala aos aplicativos. Basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para que ela possa iniciar o streaming diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.
Taxa de amostragem | Código de exemplo |
"Olá! Meu nome é Joana." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
Grande seleção de vozes e idiomas
O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes. Além das vozes TTS padrão e de conversão neural de texto em fala (NTTS), o Amazon Polly oferece agora as vozes Long-Form e generativas que melhoram a qualidade da voz para que ela soe mais natural e humana.
Danielle, Gregory e Ruth são vozes em inglês americano disponíveis nas variantes long-form e neural. Ruth, Matthew e Amy também estão disponíveis em uma variante generativa.
Sincronize a fala para oferecer uma experiência visual otimizada
O Amazon Polly torna fácil solicitar streams adicionais de metadados que disponibilizam informações sobre quando frases, palavras e sons específicos estão sendo pronunciados. Agora, usando esses streams de metadados juntamente com streams de áudio de fala sintetizada, você pode criar aplicativos que oferecem uma experiência visual otimizada, com recursos como animação facial sincronizada com a fala ou destaque de palavras no estilo de karaokê.
Acesse a documentação para saber mais sobre como usar marcas de fala.
Otimize o streaming de áudio
Com o Amazon Polly, é possível usar a aplicação para fazer o streaming de todos os tipos de informações para usuários praticamente em tempo real. Além disso, você pode escolher entre diversas taxas de amostragem para otimizar a largura de banda e a qualidade de áudio da aplicação. O Amazon Polly é compatível com os formatos de streaming de áudio MP3, Vorbis e PCM bruto.
Taxa de amostragem | Tamanho do MP3 | Tamanho do OGG |
Tamanho do PCM |
24,00 kHz Ouvir | 19,31 kB | 18,11 kB | N/D |
22,05 kHz Ouvir |
19,33 kB | 17,62 kB | N/D |
16,05 kHz Ouvir | 16,22 kB | 15,48 kB | 100,68 kB |
8,00 kHz Ouvir | 13,26 kB | 9,72 kB | 50,34 kB |
Ajuste o estilo de fala, a taxa de fala, o tom e a intensidade
O Amazon Polly é compatível com Speech Synthesis Markup Language (SSML), uma linguagem de marcação com base em XML de W3C padrão para aplicativos de síntese de fala. Além disso, é compatível com tags SSML comuns para formação de frases, ênfase e entonação. As tags personalizadas da Amazon SSML fornecem opções exclusivas, como a capacidade de fazer certas vozes falarem em um estilo de fala de Apresentador. Essa flexibilidade ajuda a criar uma fala realista que atrairá e prenderá a atenção do público.
Para saber mais, acesse a documentação do Amazon Polly sobre etiquetas SSML.
Amostra | SSML |
É assim que falo normalmente. | (nenhum) |
Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou entregando um briefing rápido. | <speak><amazon:domain name="news">Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou fornecer informações rápidas.</amazon:domain></speak> |
Posso falar com um tom de voz mais elevado ou posso falar com um tom de voz mais baixo. | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
Posso falar bem devagar ou muito depressa. | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
Também posso falar muito alto ou bem baixo. | <speak>Também posso falar <prosody volume="x-loud">muito alto</prosody> pi <prosody volume="x-soft">bem baixo</prosody>. </speak> |
Posso sussurrar. | <speak>Tenho um segredo para te contar, vou sussurrá-lo.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Eu não sou humano.</prosody></prosody></amazon:effect>Dá para acreditar?</speak> |
Estilo de fala de apresentador
O Amazon Polly pode ser usado para sintetizar a voz como se fosse falada por um apresentador de TV ou rádio. Esta pode ser uma ótima maneira de ler notícias ou fornecer informações rápidas sobre atualizações. O estilo de apresentador está atualmente disponível para as vozes Matthew e Joanna em inglês americano (en-US), para a voz Amy em inglês britânico (en-GB) e para a voz Lupe em espanhol americano (es-US) usando a conversão neural de texto em fala. Ouça uma amostra de áudio em inglês norte-americano, inglês britânico ou espanhol americano.
Ajustar a duração máxima da fala
O Amazon Polly permite que você ajuste automaticamente a taxa da fala com base em uma quantidade máxima de tempo alocado definida com um recurso chamado prosódia orientada pelo tempo. Isso é útil para muitos casos de uso, especialmente no que se refere à localização.
Por exemplo, suponha que você tenha fala em inglês dos EUA incorporada no seu vídeo de treinamento e queira localizar esse vídeo em alemão. Digamos que você traduza o texto usando o Amazon Translate e aplique a voz com o Polly. É essencial que a fala em alemão localizada flua em quadros correspondentes do vídeo, assim, a fala em alemão não pode ser ais longa que a fala em inglês dos EUA. Você pode usar esse recurso para facilitar o processo de dublagem de maneira mais simples.
Suporte a plataformas e linguagens de programação
O Amazon Polly é compatível com todas as linguagens de programação incluídas no AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e no AWS Mobile SDK (iOS/Android). Além disso, o Polly também é compatível com a API do HTTP, permitindo que você implemente sua própria camada de acesso.
Síntese de fala por meio de API, console ou linha de comando
O Amazon Polly pode ser acessado por meio da API do Polly (e por vários SDKs específicos a uma linguagem), o Console de Gerenciamento da AWS e a AWS Command Line Interface (CLI). O usuário do Amazon Polly tem controle total sobre todos os seus recursos, esteja ele usando o serviço por meio do console, da API ou da ILC.
Léxicos personalizados
Com os léxicos personalizados (ou vocabulários) do Amazon Polly, é possível modificar a pronúncia de palavras específicas, como nomes de empresas, acrônimos, palavras estrangeiras e neologismos (ex.: "ROTFL", "C’est la vie" quando pronunciado por uma voz que não seja francesa). Para personalizar essas pronúncias, basta fazer o upload de um arquivo XML com entradas léxicas. Por exemplo, é possível personalizar a pronúncia de Nguyen ao disponibilizar um fonema usando este XML:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice é um contrato personalizado em que você trabalha com a equipe do Amazon Polly para criar uma voz de conversão de texto para fala neural (NTTS) para o uso exclusivo de sua organização. A Brand Voice permite diferenciar seus produtos e aplicativos com uma identidade vocal exclusiva em uma ampla variedade de casos de uso, incluindo integrações com o Amazon Connect e o Alexa Skills. Trabalhamos com você durante todo o processo para identificar a persona, identificar um ator ou atriz e gravar a fala dele(a) e, por fim, criar e treinar um modelo para produzir a voz. Em seguida, a voz é disponibilizada para o(s) ID(s) de sua Conta da AWS.
Ouça a Voz da Marca do Banco Nacional da Austrália »
Ouça a Voz da Marca do Banco da Nova Zelândia »
Se você tiver interesse em criar um Brand Voice usando o Polly, entre em contato conosco ou com o gerente da sua conta da AWS para obter mais informações.
Integrações da central de atendimento
O Amazon Polly é integrado de forma nativa ao Amazon Connect, a solução de central de atendimento baseada na nuvem da AWS que você pode usar para estabelecer e gerenciar uma central de atendimento de clientes e fornecer engajamento de confiança com os clientes em qualquer escala. Para saber mais sobre como adicionar prompts de conversão de texto em fala ao seu sistema de conversação com resposta de voz interativa, veja como usar vozes do Polly no Amazon Connect.
O Genesys Cloud CX é uma solução de central de atendimento na nuvem que unifica as experiências de clientes e atendentes em vários canais, como telefone, texto e chat. Você pode implantar seus bots de voz usando qualquer uma das vozes existentes do Polly. Consulte a documentação do Genesys Cloud para obter mais informações.
O Amazon Chime SDK é um conjunto de componentes de comunicação em tempo real que os desenvolvedores podem usar para adicionar rapidamente recursos de chamadas de áudio, chamadas de vídeo e compartilhamento de tela às suas próprias aplicações da Web, móveis ou de telefonia. O Amazon Chime SDK oferece suporte à integração nativa com o Amazon Polly, facilitando para os desenvolvedores a criação de aplicações que transformam texto e dados numéricos em falas realistas e reproduzem automaticamente a saída para um autor da chamada telefônica.
O Amazon Polly é integrado a vários parceiros do AWS CCI, assim você pode criar imediatamente agentes virtuais de atendimento ao cliente para autoatendimento, bots informativos ou bots de aplicações. Entre os parceiros do Amazon Polly estão a Genesys, a Vonage e a Accenture. Para saber mais sobre os parceiros, acesse o AWS CCI e a página de parceiros do AWS CCI.