Recursos do Amazon Polly

API simples de usar

O Amazon Polly disponibiliza uma API que permite integrar rapidamente síntese de fala aos aplicativos. Basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para que ela possa iniciar o streaming diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.

Taxa de amostragem	Código de exemplo
"Olá! Meu nome é Joana."	from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna")

Grande seleção de vozes e idiomas

O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes. Além das vozes TTS padrão e de conversão neural de texto em fala (NTTS), o Amazon Polly oferece agora as vozes Long-Form e generativas que melhoram a qualidade da voz para que ela soe mais natural e humana.

Danielle, Gregory, Ruth, Patryk, Alba e Raúl são as vozes disponíveis em uma variante longa.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía e Vicki, Bianca, Kajal, Pedro, Andrés, Sergio, Daniel e Rémi estão disponíveis em uma variante generativa.

Idioma ou variante do idioma	Feminino	Masculino

Árabe-MSA	Zeina
Árabe (Golfo)	Hala (Neural)	Zayd (Neural)
Cantonês	Hiujin (Neural)
Catalão	Arlet (Neural)
Dinamarquês	Sofie (Neural)	Mads
	Naja
Holandês	Laura (Neural)	Ruben
	Lotte
Holandês (Flamengo) - Bélgica	Lisa (Neural)
Inglês (Índia)	Kajal (Neural)
	Raveena
	Aditi
	Kajal (Generativo)
Inglês (Irlanda)	Niamh (Neural)
Inglês - Nova Zelândia	Aria (Neural)
Inglês - Cingapura	Jasmim (Neural)
Inglês - África do Sul	Ayanda (Generativa)
	Ayanda
Inglês – Reino Unido	Amy (Generativa)	Brian (Neural)
	Amy (Neural)	Brian (Padrão)
	Amy (Padrão)	Arthur (Neural)
	Emma (Neural)
	Emma (Padrão)
Inglês – EUA	Ruth (Generativa)	Patrick (Formato longo)
	Ruth (Formato longo)	Gregory (Long-Form)
	Ruth (Neural)	Gregory (Neural)
	Danielle (Generativa)	Stephen (Generativa)
	Danielle (Formato longo)	Stephen (Neural)
	Joanna (Generativa)	Matthew (Generativa)
	Joanna (Neural)	Matthew (Neural)
	Joanna (Padrão)	Matthew (Padrão)
	Salli (Neural)	Justin (Neural)
	Salli (Padrão)	Justin (Padrão)
	Kendra (Neural)	Joey (Neural)
	Kendra (Padrão)	Joey (Padrão)
	Kimberly (Neural)
	Kimberly (Padrão)
	Ivy (Neural)
	Ivy (Padrão)
Inglês - País de Gales		Geraint
Inglês - Austrália	Olivia (Geradora)	Russell
	Olivia (Neural)
	Nicole
Finlandês	Suvi (Neural)
Francês - Bélgica	Isabelle (Neural)
Francês - Canadá	Gabrielle (Neural)	Liam (Neural)
	Chantal
Francês - França	Léa (Generativa)	Mathieu
	Léa (Neural)	Rémi (Generativo)
	Léa (Padrão)	Rémi
	Céline
Alemão - Áustria	Hannah (Neural)
Alemão - Alemanha	Vicki (Generativa)	Daniel (Generativo)
	Vicki (Neural)	Daniel (Neural)
	Vicki (Padrão)	Hans
	Marlene
Hindu - Índia	Kajal (Neural)
	Aditi
Islandês	Dóra	Karl
Italiano	Bianca (Neural)	Adriano
	Bianca (Padrão)	Giorgio
	Bianca (Generativa)
	Carla
Japonês	Kazuha (Neural)	Takumi (Neural)
	Tomoko (Neural)	Takumi (Padrão)
	Mizuki
Coreano	Seoyeon (Neural)
	Jihye (Neural)
	Seoyeon (Padrão)
Mandarim	Zhiyu (Neural)
	Zhiyu (Padrão)
Norueguês	Ida (Neural)
	Liv
Polonês	Ola (Neural)	Jacek
	Ewa	Jan
	Maja
Português - Brasil	Vitória (Neural)	Ricardo
	Vitória (Padrão)	Thiago
	Camila (Neural)
	Camila (Padrão)
Português - Portugal	Inês (Neural)	Cristiano
	Inês (Padrão)
Romeno	Carmen
Russo	Tatyana	Maxim
Espanhol (México)	Mia (Generativa)
	Mia (Neural)	Andrés
	Mia (Padrão)	Andrés (Generativo)
Espanhol (Espanha)	Alba (formato longo)	Raúl (Formato longo)
	Lucia (Generativa)	Sergio
	Lucia (Neural)	Enrique
	Lucia (Padrão)	Sergio (Generativo)
Espanhol (EUA)	Conchita	Pedro (Generativo)
	Lupe (Generativa)	Pedro (Neural)
	Lupe (Neural)	Miguel
	Lupe (Padrão)
	Penélope
Sueco	Astrid
	Elin (Neural)
Turco	Filiz
	Burcu (Neural)
Galês	Gwyneth

Sincronize a fala para oferecer uma experiência visual otimizada

O Amazon Polly torna fácil solicitar streams adicionais de metadados que disponibilizam informações sobre quando frases, palavras e sons específicos estão sendo pronunciados. Agora, usando esses streams de metadados juntamente com streams de áudio de fala sintetizada, você pode criar aplicativos que oferecem uma experiência visual otimizada, com recursos como animação facial sincronizada com a fala ou destaque de palavras no estilo de karaokê.

Acesse a documentação para saber mais sobre como usar marcas de fala.

Otimize o streaming de áudio

Com o Amazon Polly, é possível usar a aplicação para fazer o streaming de todos os tipos de informações para usuários praticamente em tempo real. Além disso, você pode escolher entre diversas taxas de amostragem para otimizar a largura de banda e a qualidade de áudio da aplicação. O Amazon Polly é compatível com os formatos de streaming de áudio MP3, Vorbis e PCM bruto.

Taxa de amostragem	Tamanho do MP3	Tamanho do OGG	Tamanho do PCM
24,00 kHz Ouvir	19,31 kB	18,11 kB	N/D
22,05 kHz Ouvir	19,33 kB	17,62 kB	N/D
16,05 kHz Ouvir	16,22 kB	15,48 kB	100,68 kB
8,00 kHz Ouvir	13,26 kB	9,72 kB	50,34 kB

Ajuste o estilo de fala, a taxa de fala, o tom e a intensidade

O Amazon Polly é compatível com Speech Synthesis Markup Language (SSML), uma linguagem de marcação com base em XML de W3C padrão para aplicativos de síntese de fala. Além disso, é compatível com tags SSML comuns para formação de frases, ênfase e entonação. As tags personalizadas da Amazon SSML fornecem opções exclusivas, como a capacidade de fazer certas vozes falarem em um estilo de fala de Apresentador. Essa flexibilidade ajuda a criar uma fala realista que atrairá e prenderá a atenção do público.

Para saber mais, acesse a documentação do Amazon Polly sobre etiquetas SSML.

Amostra	SSML
É assim que falo normalmente.	(nenhum)
Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou entregando um briefing rápido.	<speak><amazon:domain name="news">Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou fornecer informações rápidas.</amazon:domain></speak>
Posso falar com um tom de voz mais elevado ou posso falar com um tom de voz mais baixo.	<speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
Posso falar bem devagar ou muito depressa.	<speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak>
Também posso falar muito alto ou bem baixo.	<speak>Também posso falar <prosody volume="x-loud">muito alto</prosody> pi <prosody volume="x-soft">bem baixo</prosody>. </speak>
Posso sussurrar.	<speak>Tenho um segredo para te contar, vou sussurrá-lo.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Eu não sou humano.</prosody></prosody></amazon:effect>Dá para acreditar?</speak>

Estilo de fala de apresentador

O Amazon Polly pode ser usado para sintetizar a voz como se fosse falada por um apresentador de TV ou rádio. Esta pode ser uma ótima maneira de ler notícias ou fornecer informações rápidas sobre atualizações. O estilo de apresentador está atualmente disponível para as vozes Matthew e Joanna em inglês americano (en-US), para a voz Amy em inglês britânico (en-GB) e para a voz Lupe em espanhol americano (es-US) usando a conversão neural de texto em fala. Ouça uma amostra de áudio em inglês norte-americano, inglês britânico ou espanhol americano.

Ajustar a duração máxima da fala

O Amazon Polly permite que você ajuste automaticamente a taxa da fala com base em uma quantidade máxima de tempo alocado definida com um recurso chamado prosódia orientada pelo tempo. Isso é útil para muitos casos de uso, especialmente no que se refere à localização.

Por exemplo, suponha que você tenha fala em inglês dos EUA incorporada no seu vídeo de treinamento e queira localizar esse vídeo em alemão. Digamos que você traduza o texto usando o Amazon Translate e aplique a voz com o Polly. É essencial que a fala em alemão localizada flua em quadros correspondentes do vídeo, assim, a fala em alemão não pode ser ais longa que a fala em inglês dos EUA. Você pode usar esse recurso para facilitar o processo de dublagem de maneira mais simples.

Suporte a plataformas e linguagens de programação

O Amazon Polly é compatível com todas as linguagens de programação incluídas no AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e no AWS Mobile SDK (iOS/Android). Além disso, o Polly também é compatível com a API do HTTP, permitindo que você implemente sua própria camada de acesso.

Síntese de fala por meio de API, console ou linha de comando

O Amazon Polly pode ser acessado por meio da API do Polly (e por vários SDKs específicos a uma linguagem), o Console de Gerenciamento da AWS e a AWS Command Line Interface (CLI). O usuário do Amazon Polly tem controle total sobre todos os seus recursos, esteja ele usando o serviço por meio do console, da API ou da ILC.

Léxicos personalizados

Com os léxicos personalizados (ou vocabulários) do Amazon Polly, é possível modificar a pronúncia de palavras específicas, como nomes de empresas, acrônimos, palavras estrangeiras e neologismos (ex.: "ROTFL", "C’est la vie" quando pronunciado por uma voz que não seja francesa). Para personalizar essas pronúncias, basta fazer o upload de um arquivo XML com entradas léxicas. Por exemplo, é possível personalizar a pronúncia de Nguyen ao disponibilizar um fonema usando este XML:

Nguyen (antes)

Nguyen (depois)

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice é um contrato personalizado em que você trabalha com a equipe do Amazon Polly para criar uma voz de conversão de texto para fala neural (NTTS) para o uso exclusivo de sua organização. A Brand Voice permite diferenciar seus produtos e aplicativos com uma identidade vocal exclusiva em uma ampla variedade de casos de uso, incluindo integrações com o Amazon Connect e o Alexa Skills. Trabalhamos com você durante todo o processo para identificar a persona, identificar um ator ou atriz e gravar a fala dele(a) e, por fim, criar e treinar um modelo para produzir a voz. Em seguida, a voz é disponibilizada para o(s) ID(s) de sua Conta da AWS.

Ouça a Voz da Marca do Banco Nacional da Austrália »

Ouça a Voz da Marca do Banco da Nova Zelândia »

Se você tiver interesse em criar um Brand Voice usando o Polly, entre em contato conosco ou com o gerente da sua conta da AWS para obter mais informações.

Integrações da central de atendimento

Amazon Connect

O Amazon Polly é integrado de forma nativa ao Amazon Connect, a solução de central de atendimento baseada na nuvem da AWS que você pode usar para estabelecer e gerenciar uma central de atendimento de clientes e fornecer engajamento de confiança com os clientes em qualquer escala. Para saber mais sobre como adicionar prompts de conversão de texto em fala ao seu sistema de conversação com resposta de voz interativa, veja como usar vozes do Polly no Amazon Connect.

Genesys Cloud CX

O Genesys Cloud CX é uma solução de central de atendimento na nuvem que unifica as experiências de clientes e atendentes em vários canais, como telefone, texto e chat. Você pode implantar seus bots de voz usando qualquer uma das vozes existentes do Polly. Consulte a documentação do Genesys Cloud para obter mais informações.

Amazon Chime SDK

O Amazon Chime SDK é um conjunto de componentes de comunicação em tempo real que os desenvolvedores podem usar para adicionar rapidamente recursos de chamadas de áudio, chamadas de vídeo e compartilhamento de tela às suas próprias aplicações da Web, móveis ou de telefonia. O Amazon Chime SDK oferece suporte à integração nativa com o Amazon Polly, facilitando para os desenvolvedores a criação de aplicações que transformam texto e dados numéricos em falas realistas e reproduzem automaticamente a saída para um autor da chamada telefônica.

AWS Contact Center Intelligence (CCI)

O Amazon Polly é integrado a vários parceiros do AWS CCI, assim você pode criar imediatamente agentes virtuais de atendimento ao cliente para autoatendimento, bots informativos ou bots de aplicações. Entre os parceiros do Amazon Polly estão a Genesys, a Vonage e a Accenture. Para saber mais sobre os parceiros, acesse o AWS CCI e a página de parceiros do AWS CCI.