Amazon Web Services ブログ

Amazon Transcribe で、個人情報の自動編集機能を提供開始

AWS re:Invent 2017 でローンチされた Amazon Transcribe は自動音声認識 (ASR) サービスで、AWS のお客様が音声テキスト変換機能をアプリケーションに簡単に追加できるようにします。この記事の執筆時点では、 は 31 の言語をサポートしておりそのうち 6 つについてリアルタイムで文字起こしを行うことができます。

の一般的な使用例は、お客様のコール (コールセンター、テレマーケティングなど) の自動トランスクリプションで、ダウンストリーム分析や、感情分析などの自然言語処理タスク用のデータセットを構築します。したがって、プライバシーを保護し、現地の法律や規制を遵守するためにあらゆる個人情報 (PII) を削除する必要があります。

ご想像のとおり、これを手動で行うのは非常に面倒で時間がかかり、間違いが起こりやすいため、Amazon Transcribe が PII の自動リダクションをサポートするようになったことを発表できることを大変嬉しく思います。

Amazon Transcribe でのコンテンツ編集のご紹介
そう指示した場合、 は次の PII を自動的に識別します。

  • 社会保障番号、
  • クレジットカード/デビットカード番号、
  • クレジットカード/デビットカードの有効期限、
  • クレジットカード/デビットカードの CVV コード、
  • 銀行の口座番号、
  • 銀行ルーティング番号、
  • デビット/クレジットカードの PIN、
  • 名前、
  • E メールアドレス、
  • 電話番号 (10 桁)、
  • 郵送先住所。

これらは、文字起こしされたテキストの中で「[PII]」タグに置き換えられます。また、開始と終了のタイムスタンプだけでなく、(通常の ASR スコアの代わりに) 編集信頼度スコアも取得します。これらのタイムスタンプは、オーディオファイル内の PII を見つけるのに役立ちます。これにより、ストレージと共有を安全に行い、追加のオーディオ処理をしてソースで編集できるようにします。

この機能は非常に使いやすいので、簡単なデモを行ってみましょう。

Amazon Transcribe による個人情報の編集
最初に、個人情報満載の短い音声ファイルを録音しました (もちろん、すべて偽物です)。ここでは mp3 形式を使用していますが、最大の精度を得るには FLAC や WAV などの可逆圧縮音声ファイルフォーマットを使用することをお勧めします。

次に、AWS CLI を使用して、このファイルを S3 バケットにアップロードします。

$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1

次のステップでは、StartTranscriptionJob API を使用してこのサウンドファイルを書き起こします。今回は、AWS SDK for PHP を利用してみませんか?

<?php
require 'aws.phar';

use Aws\TranscribeService\TranscribeServiceClient;

$client = new TranscribeServiceClient([
    'profile' => 'default',
    'region' => 'us-east-1',
    'version' => '2017-10-26'
]);

$result = $client->startTranscriptionJob([
    'LanguageCode' => 'en-US',
    'Media' => [
        'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3',
    ],
    'MediaFormat' => 'mp3',
    'OutputBucketName' => 'jsimon-transcribe-us-east-1',
    'ContentRedaction' => [
        'RedactionType' => 'PII',
        'RedactionOutput' => 'redacted'
    ],
    'TranscriptionJobName' => 'redaction'
]);
?>

本当に 1 回の API コールで十分です。RedactionOutput パラメータにより、完全な出力と編集済みの出力の両方を使用するか、編集済みの出力のみを使用するかを制御できます。この記事では後者にします。それでは、このスクリプトを実行しましょう。

$ php transcribe.php

すぐに、 コンソールで実行中のジョブを確認できます。

また、GetTranscriptionJob API と ListTranscriptionJobs API を使用して、コンテンツの編集が反映されていることを確認することもできます。ジョブが完了したら、S3 バケットからトランスクリプションを取得するだけです。

$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .

トランスクリプションは、各単語に関する詳細情報を含む JSON ドキュメントです。ここでは、完全なトランスクリプトにのみ関心があるため、jq という素晴らしいオープンソースツールを使用してドキュメントをフィルタリングします。

$ cat redacted-redactiontest.json| jq '.results.transcripts'
[{
「トランスクリプト」:「みなさん、おはようございます。私は [PII] と申します。今日は、個人情報をたくさん共有したいと思います。私の社会保障番号の [PII] から始めましょう。クレジットカード番号は [PII]、CVV コードは [PII]、銀行口座番号は [PII]、E メールアドレスは [PII]、そして電話番号は [PII] です。まあ、これぐらいにしておきます。私のことについて詳しくなりましたね。Amazon Transcribe がその個人情報を編集するのに良い仕事をしてくれることを願っています。では、確認してみましょう」
}]

Amazon Transcribe は上手く編集しましたね。私のプライバシーは守られました。

今すぐご利用いただけます!
コンテンツ編集機能は、次のリージョンにおいて英語でご利用いただけます。

  • 米国東部 (バージニア北部)米国東部 (オハイオ)米国西部 (北カリフォルニア)米国西部 (オレゴン)AWS GovCloud (米国西部)
  • カナダ (中部)南米 (サンパウロ)
  • 欧州 (アイルランド)欧州 (ロンドン)欧州 (パリ)欧州 (フランクフルト)
  • 中東 (バーレーン)
  • アジアパシフィック (ムンバイ)アジアパシフィック (香港)アジアパシフィック (ソウル)アジアパシフィック (シンガポール)アジアパシフィック (シドニー)アジアパシフィック (東京)

料金表ページをご覧になり、ぜひ機能をお試しください。Amazon Transcribe の AWS フォーラムまたは通常の AWS サポートの連絡先からフィードバックをお送りください。

– Julien