亚马逊AWS官方博客

新增功能 – Amazon Polly 长篇语音

Polly 将推出三种新声音,采用全新长篇语音引擎,自然而富有表现力,并且具有适当的停顿、重音和音调。

新声音
新推出的长篇语音非常适合博客文章、新闻报道、培训视频和营销内容的语音合成。底层机器学习模型可提取文本中的含义,学习语音片段、韵律(节奏和停顿规律)、语调和其他语言表达元素,从而确保合成的语音能够表达情感,尤其是在对话场景中。新推出的长篇引擎采用深度学习文本转语音(TTS)模型。该模型专为理解文本语境而进行训练,能够以恰当的方式表达韵律,从而根据故事的意图来决定声音的表现,正确创造真实人声的重音、停顿和音调。

新推出的声音如下:

使用新声音
您可以通过 AWS 管理控制台AWS 命令行界面(AWS CLI)AWS SDK 来使用这些新声音。在使用 CLI 时,我会首先列出使用新长篇语音引擎的声音:

$ aws --region us-east-1 polly describe-voices --output json \
  | jq -r '.Voices[] | select(.SupportedEngines | index("long-form")) | .Name'
Danielle
Gregory
Ruth

我可以从中选择一个,也可以全部都试试:

for v in `aws polly describe-voices --output json \
          | jq -r '.Voices[] | select(.SupportedEngines | index("long-form")) | .Name'`; do
    Text="Hello my name is $v and I can read blog posts, articles, \
and other long-form content for you.I am the best\!"
    aws polly synthesize-speech --output-format 'mp3' \
    --text "$Text" --voice-id $v $v.mp3 --engine long-form; \
    aws s3 cp $v.mp3 s3://jbarr-voices; \
done

我的 Shell 脚本有一个小的引述错误,但是生成的声音太有趣了,没法不加进去!

您可以编写调用 DescribeVoicesSynthesizeSpeech 函数的代码,从而以编程方式重现我的示例。

注意事项
对于这些新声音,您需要注意以下几个方面:

定价 – 长篇语音的定价为每百万个字符或语音标记请求 100 美元。有关更多详情,请参阅 Amazon Polly 定价页面。

引擎和声音 – 上面列出的某些声音可以与多个引擎结合使用。例如,Danielle 声音可以与新推出的长篇语音引擎和现有的神经引擎结合使用。

区域 – 新引擎和声音已在美国东部(弗吉尼亚州北部)区域开放。

不妨试试新声音,发挥奇思妙想,然后告诉我您的想法!

Jeff

名称 地域 性别 语言 示例
Danielle en_US 英语(美国)
Gregory en_US 英语(美国)
Ruth en_US 英语(美国)