Amazon Web Services 한국 블로그

Amazon Polly용 롱폼 엔진 기반 신규 영어 음성 공개

Amazon Polly를 위한 세 가지 새로운 음성을 출시합니다. 새로운 롱폼 엔진으로 구동되는 음성은 자연스럽고 표현력이 풍부하며 적절한 일시 중지, 강조, 톤이 특징입니다.

새 음성
새로운 롱폼 음성은 블로그 게시물, 뉴스 기사, 교육 비디오, 마케팅 콘텐츠에 안성맞춤입니다. 기본 기계 학습 모델은 텍스트에서 의미를 추출하여 음성 세그먼트, 운율(리듬과 일시 정지의 패턴), 억양은 물론, 기타 표현적 음성의 측면도 학습하여 합성된 오디오가 특히 대화에서 감정을 표현할 수 있도록 합니다. 새로운 롱폼 엔진은 텍스트에 대한 문맥적 이해를 습득하도록 훈련된 딥 러닝 텍스트 음성 변환(TTS) 모델을 사용하여 적절한 방식으로 운율을 표현할 수 있습니다. 이 모델을 활용하면 이야기의 의도가 발성에 반영되어 실제 사람 목소리의 정확한 강조, 일시 정지, 톤을 연출할 수 있습니다.

새로 선보이는 음성은 다음과 같습니다.

 

이름 로케일 젠더 언어 샘플
Danielle en_US 여성 영어(미국)
Gregory en_US 남성 영어(미국)
Ruth en_US 여성 영어(미국)

새 음성 사용
AWS Management Console, AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용하여 새 음성에 액세스할 수 있습니다. CLI를 활용하여 새로운 롱폼 엔진을 사용하는 음성부터 먼저 나열하면 다음과 같습니다.

$ aws --region us-east-1 polly describe-voices --output json \
  | jq -r '.Voices[] | select(.SupportedEngines | index("long-form")) | .Name'
Danielle
Gregory
Ruth

하나를 선택할 수도 있고, 모두 시도해 볼 수도 있습니다.

for v in `aws polly describe-voices --output json \
          | jq -r '.Voices[] | select(.SupportedEngines | index("long-form")) | .Name'`; do
    Text="Hello my name is $v and I can read blog posts, articles, \
and other long-form content for you. I am the best\!"
    aws polly synthesize-speech --output-format 'mp3' \
    --text "$Text" --voice-id $v $v.mp3 --engine long-form; \
    aws s3 cp $v.mp3 s3://jbarr-voices; \
done

셸 스크립트에 작은 인용 버그가 있었지만 포함하지 않기에는 음성 출력 결과가 너무 재미있었습니다!

DescribeVoicesSynthesizeSpeech 함수를 호출하는 코드를 작성하여 프로그래밍 방식으로 예제를 재현할 수 있습니다.

알아야 할 사항
새 음성에 대해 알아두어야 할 몇 가지 흥미로운 점은 다음과 같습니다.

요금 – 롱폼 음성 요금은 100만 자 또는 100만 스피치 마크 요청 건당 100달러로 책정됩니다. 자세한 내용은 Amazon Polly 요금 페이지를 방문해 확인하세요.

엔진 및 음성 – 앞서 소개한 일부 음성은 둘 이상의 엔진과 함께 사용할 수 있습니다. 예를 들어 Danielle 음성은 새로운 롱폼 엔진 및 기존 신경망 엔진과 함께 사용할 수 있습니다.

리전 – 새 엔진 및 음성은 미국 동부(버지니아 북부) 리전에서 사용할 수 있습니다.

새 음성을 확인하여 멋진 작업물을 구축하고 여러분의 의견을 알려주세요!

Jeff