Общие вопросы
Вопрос. Что такое Amazon Transcribe?
Amazon Transcribe – это сервис AWS на основе искусственного интеллекта, позволяющий преобразовывать речь в текст. Благодаря технологии автоматического распознавания речи (ASR) вы можете использовать Amazon Transcribe для решения самых разных бизнес-задач, включая расшифровку телефонных обращений в службу поддержки, создание субтитров для аудио- и видеоконтента, а также текстового анализа аудио- и видеоконтента.
Вопрос. Как Amazon Transcribe взаимодействует с другими продуктами AWS?
Amazon Transcribe преобразует речь в текст, после чего различные приложения для анализа текста могут выполнять расшифровку голосовой информации. Например, применив приложение Amazon Comprehend к преобразованным с помощью Amazon Transcribe текстовым данным, можно выполнить анализ эмоций или извлечь суть и ключевые фразы. При интеграции Amazon Translate с Amazon Polly можно принять речевой сигнал на одном языке, перевести его на другой язык и сгенерировать итоговый речевой сигнал, таким образом обеспечивая разговор на разных языках. Кроме того, можно использовать Amazon Transcribe вместе с Amazon Kendra или Amazon OpenSearch для выполнения индексирования и текстового поиска по всей библиотеке аудио- или видеоматериалов. Чтобы узнать подробнее, см. решения Аналитика во время звонка и помощь операторам, Анализ данных после звонка, MediaSearch или Анализ контента.
Вопрос. Что еще мне следует знать перед началом использования Amazon Transcribe?
Amazon Transcribe разработан для работы с широким спектром речевых и акустических характеристик, включая колебания громкости, высоту тона и скорость речи. Качество и содержание аудиосигнала (включая, помимо прочего, такие факторы, как фоновый шум, наложение звука, акцентная речь или переход от одного языка к другому в одном аудиофайле) могут повлиять на точность работы сервиса. Мы постоянно обновляем сервис, чтобы улучшить его способность адаптироваться к дополнительным акустическим перепадам и разным типам материалов.
Использование Amazon Transcribe
Вопрос. Как разработчики получают доступ к Amazon Transcribe?
Самый простой способ начать работу – отправить через консоль задачу для расшифровки аудиофайла. К сервису можно обращаться непосредственно из интерфейса командной строки AWS. Кроме того, можно интегрировать сервис в приложение, используя подходящий пакет SDK. В любом случае для начала работы с Amazon Transcribe и формирования автоматизированных расшифровок аудиофайлов потребуется всего лишь несколько строк кода.
Вопрос. Поддерживает ли Amazon Transcribe расшифровку речи в режиме реального времени?
Да. Amazon Transcribe позволяет создать двунаправленную трансляцию через HTTP2. Вы можете отправлять аудиопоток в сервис и получать обратно текстовый поток в реальном времени. Подробнее см. на странице документации.
Вопрос. Какой формат аудио поддерживает сервис для расшифровки речи в реальном времени?
Поддерживаемые типы медиафайлов различаются для пакетной и потоковой расшифровки, хотя для обеих рекомендуется использовать форматы без потерь. Подробнее см. на странице документации.
Вопрос. Какие языки поддерживает Amazon Transcribe?
О поддерживаемых языках см. на странице документации.
Вопрос. На каких устройствах работает Amazon Transcribe?
Amazon Transcribe практически не зависит от типов устройств. В общем он может работать на любых устройствах со встроенными микрофонами, таких как телефоны, ПК, планшеты и устройства IoT (например, автомобильные аудиосистемы). Интерфейс API Amazon Transcribe определяет качество аудиопотока, поступающего на устройство (8 кГц или 16 кГц), и выбирает подходящие акустические модели для преобразования речи в текст. Разработчики также могут вызывать API Amazon Transcribe в своих приложениях для получения доступа к возможностям преобразования речи в текст.
Вопрос. Существуют ли ограничения по размеру аудиоконтента, который может обработать Amazon Transcribe?
Один вызов API пакетного сервиса Amazon Transcribe может обрабатывать не более четырех часов (или 2 ГБ) контента. Сервис потоковой передачи предоставляет открытые подключения в течение четырех часов.
Вопрос. Какие языки программирования поддерживает Amazon Transcribe?
Пакетный сервис Amazon Transcribe поддерживает .NET, Go, Java, JavaScript, PHP, Python и Ruby. Сервис Amazon Transcribe в реальном времени поддерживает Java SDK, Ruby SDK и C++ SDK. Готовится дополнительная поддержка SDK. Подробнее см. на страницах ресурсов и документации.
Вопрос. Термины из настраиваемого словаря не распознаются. Что делать?
На распознавание речи влияет множество факторов, поэтому наличие термина в пользовательском словаре не гарантирует, что он будет правильно распознан. Однако одна из наиболее частых причин этого заключается в том, что произношение слов существенно отличается от их написания.
В таких случаях рекомендуется создать несколько фраз в файле пользовательского словаря для одного и того же слова, чтобы учесть возможные варианты произношения. Вы можете использовать столбец DisplayAs для желаемых результатов. Дополнительные сведения см. в документации по пользовательским словарям.
Вопрос. Почему исходный текст содержит слишком много слов?
Это происходит потому, что количество терминов в настраиваемых словарях обычно ограничено, однако в больших экземплярах содержатся слова с одинаковым произношением. Советуем вам сократить список до редких или часто используемых слов. Если словарь содержит омонимы, их следует разграничить, создав отдельные списки в зависимости от сферы употребления термина. Короткие слова, созвучные со многими другими, могут стать причиной появления лишних терминов в исходном тексте. Рекомендуем сгруппировать их с часто употребляемыми в таком контексте словами и включить в список фраз через дефис. Например, пользовательский термин «A.D.» может быть добавлен в составе фразы «A.D.-converter».
Вопрос. Могут ли при использовании форм DisplayAs отображаться наборы символов, не относящиеся к исходному транскрибируемому языку (например, слово «Street» быть показано как “街道“)?
Да. Для транскрипции фразы существует ограниченный набор символов для конкретного языка, однако в столбце DisplayAs можно вводить все символы UTF-8, кроме \t (TAB).
Вопрос. Сервис Transcribe поддерживает функцию автоматического редактирования контента или информации, позволяющей установить личность (PII), как для пакетных API, так и для API для потоковой передачи данных?
Да, Amazon Transcribe поддерживает автоматическое редактирование контента или PII для пакетных и потоковых API.
Вопрос. Какие языки поддерживает функция автоматического редактирования контента / персональной информации (PII)?
Подробнее о доступности языков для автоматического редактирования контента / PII см. в документации Amazon Transcribe.
Вопрос. Может ли функция автоматического редактирования контента удалять конфиденциальные личные данные из аудиозаписи?
Нет. Эта функция не удаляет конфиденциальные личные данные из аудиозаписи. Однако Amazon Transcribe Call Analytics удаляет конфиденциальную личную информацию как из расшифровок, так и из исходного аудио. Перейдите по этой ссылке и узнайте больше о том, как с помощью аналитики звонков можно редактировать аудиозаписи. Вы также можете сделать это самостоятельно, выделив нужную часть для удаления с помощью временных меток, которые содержаться в каждой записи, где была распознана информация конфиденциального характера. Просмотрите это решение для стандартных API Transcribe.
Однако специализированные API Amazon Transcribe Call Analytics удаляют конфиденциальную личную информацию как из расшифровок, так и из исходного аудио. Подробнее см. в этой документации.
Вопрос. Можно ли использовать функцию автоматического редактирования контента, чтобы удалить личные данные из записанного текста?
Нет. С помощью этой функции можно редактировать только аудиофайлы.
Вопрос. Что необходимо знать перед тем, как использовать функцию автоматического редактирования контента?
Функция автоматического редактирования контента создана для распознавания и удаления личных данных из записей. Однако из-за определенных механизмов прогнозирования, которые использует технология машинного обучения, функция может не распознать некоторые высказывания с информацией, позволяющей установить личность, сгенерированные сервисом Transcribe. Поэтому рекомендуется проверять автоматически полученный результат, чтобы удостовериться, что он удовлетворяет вашим требованиям.
Вопрос. Есть ли какие-то различия между автоматическим редактированием для потоковых и пакетных API?
Да, для потоковых API, в отличие от пакетных, автоматическое редактирование предлагает две дополнительных возможности. С потоковыми API вы можете разрешить только определение PII и запретить редактирование. Также потоковые API могут определять и редактировать только PII конкретного типа. Например, изменить только номера социального страхования и кредитной карты, а остальную персональную информацию, такую как имена и адреса электронной почты, сохранить.
Вопрос. В каких регионах AWS доступно автоматическое редактирование контента или PII?
Подробнее о доступности для автоматического редактирования контента и PII для потоковых и пакетных API в регионах AWS см. в документации Amazon Transcribe.
Вопрос. Какие API поддерживают автоматическое определение языка?
В настоящее время автоматическое определение языка поддерживается для пакетных и потоковых API.
Вопрос. Какие языки сервис Amazon Transcribe может определять автоматически?
Amazon Transcribe может определять любые языки, поддерживаемые пакетными и потоковыми API. См. здесь подробности о поддерживаемых языках и возможностях, специфичных для конкретного языка.
Вопрос. Может ли Amazon Transcribe определять различные языки в одном аудиофайле?
Amazon Transcribe поддерживает многоязычный идентификатор для пакетного перевода. Подробные сведения см. по ссылке.
Вопрос. Можно ли как‑то ограничить список языков для автоматического определения?
Да. Можно указать список языков, которые могут присутствовать в мультимедийной библиотеке. Если вы указываете список языков, наиболее вероятный будет выбран из этого перечня. Если языки не указаны, система сравнит аудиофайл со всеми языками, поддерживаемыми Amazon Transcribe, и выберет наиболее вероятный. Точность определения языка будет выше, если предоставить системе список языков на выбор. Подробные сведения см. по ссылке.
Цены и доступность
Вопрос. Сколько стоит использование сервиса?
Для получения подробных сведений см. страницу цен на Amazon Transcribe.
Вопрос. В каких регионах AWS доступен Amazon Transcribe?
См. таблицу регионов глобальной инфраструктуры AWS. См. здесь дополнительные сведения об адресах и квотах Amazon Transcribe.
Конфиденциальность данных
Вопрос. Сохраняются ли входные речевые сообщения, обработанные Amazon Transcribe, и как их использует AWS?
Amazon Transcribe может сохранять и использовать обработанные сервисом входные речевые сообщения только в целях предоставления и поддержки сервиса, а также для повышения качества и дальнейшего развития Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Использование пользовательского контента очень важно для непрерывного улучшения качества сервиса Amazon Transcribe, включая разработку и обучение связанных технологий. Сервис не использует какие‑либо идентифицирующие личность данные, которые могут содержаться в контенте, в целях продвижения продуктов и сервисов либо рекламы в адрес клиента или конечных пользователей сервиса. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://thinkwithwp.com/compliance/data-privacy-faq/. Вы можете отказаться от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, воспользовавшись политикой отказа в Организациях AWS. Подробнее о том, как оформить отказ, см. на странице политики по использованию сервисов с элементами искусственного интеллекта.
Вопрос. Можно ли удалить данные и артефакты, связанные с заданиями для расшифровки, которые хранятся в Amazon Transcribe?
Да. Для удаления данных и других артефактов, связанных с заданиями для расшифровки, можно использовать доступные API удаления. Если у вас возникли проблемы с выполнением этой операции, обратитесь в службу AWS Support.
Вопрос. Кто имеет доступ к контенту, обработанному и хранимому Amazon Transcribe?
Доступ к клиентскому контенту, обработанному Amazon Transcribe, получает только авторизованный персонал. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://thinkwithwp.com/compliance/data-privacy-faq/.
Вопрос. Принадлежит ли мне контент, обработанный и хранимый Amazon Transcribe?
Вы являетесь полноправным владельцем своего контента. Мы обязуемся использовать его только с вашего разрешения.
Вопрос. Что происходит с моими данными, используемыми при обучении пользовательских языковых моделей? Они по-прежнему будут принадлежать мне?
Вам принадлежат как исходные текстовые данные, которые используются для обучения соответствующей модели, так и созданная пользовательская модель. Текстовые данные не сохраняются и не используются для усовершенствования общего механизма распознавания речи. Модели, созданные с использованием пользовательской языковой модели (CLM), являются автономными и доступны только вам.
Вопрос. Поскольку сервис не будет сохранять мои обучающие данные, возможны ли какие-либо недоработки в расшифровке или снижение эффективности использования сервиса?
Несмотря на то, что сервис не сохраняет ваши обучающие данные, качество расшифровки не снизится. После использования обучающих данных для фактического создания пользовательской языковой модели сама модель становится доступной для повторного использования по вашему усмотрению. Исходный набор обучающих данных, загруженный вами, удаляется из наших систем. Единственная проблема может возникнуть, если вам потребуется техническая поддержка. Поскольку мы не храним ваши исходные обучающие данные, у нас не будет удобного доступа к этим ресурсам или связанным с ними промежуточным артефактам, если вам потребуются услуги команды технической поддержки для изучения потенциальных проблем с использованием сервиса. Поддержка по-прежнему будет доступна, но нам может потребоваться от вас дополнительная информация.
Вопрос. Как можно в дальнейшем повторно использовать данные для обновления или улучшения модели?
Поскольку обучающие данные не сохраняются, для обучения новых моделей потребуется повторно загрузить тот же набор данных и любые дополнительные данные. Когда появится обновление базовой модели, предоставленное сервисом Amazon Transcribe, вы получите уведомление. Чтобы воспользоваться преимуществами новейшей базовой модели, вам необходимо отправить свои данные для обучения новой модели. После этого вы сможете использовать как исходную пользовательскую модель, которую создали ранее, так и новую версию.
Вопрос. Как удалить модель?
Вы можете удалять любые созданные вами языковые модели по своему усмотрению.
Вопрос. Перемещается ли контент, обработанный Amazon Transcribe, за пределы региона AWS, в котором используется сервис Amazon Transcribe?
Весь контент, обработанный Amazon Transcribe, шифруется и надежно хранится в регионе AWS, в котором используется сервис Amazon Transcribe. Некоторые части контента, обработанного Amazon Transcribe, могут храниться в другом регионе AWS только в целях непрерывного улучшения качества и развития сервиса Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Если вы откажетесь от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, обратившись в службу AWS Support, такой контент не будет храниться в другом регионе AWS. Удаление своих голосовых записей можно запросить, связавшись со службой поддержки AWS Support. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://thinkwithwp.com/compliance/data-privacy-faq/.
Вопрос. Можно ли использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые ориентированы на детей в возрасте до 13 лет и подпадают под действие Закона о защите конфиденциальности детей в Интернете (COPPA)?
Да. При соблюдении условий использования Amazon Transcribe, согласившись с которыми вы берете на себя обязательство предоставлять – в рамках COPPA – любые необходимые предупреждения и получать любое необходимое и поддающееся проверке согласие родителей, вы можете использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые полностью или частично ориентированы на детей в возрасте до 13 лет.
Вопрос. Как определить, распространяется ли действие COPPA на мой веб-сайт, программу или приложение?
Для получения информации о требованиях COPPA и инструкций по определению того, распространяются ли требования COPPA на конкретный веб-сайт, программу или другое приложение, обратитесь непосредственно к ресурсам, предоставляемым и поддерживаемым Федеральной торговой комиссией США. На указанном сайте также содержится информация о том, как определить, ориентирован ли сервис полностью или частично на детей в возрасте до 13 лет.
Amazon Transcribe Call Analytics
Вопрос. Что такое Amazon Transcribe Call Analytics?
Amazon Transcribe Call Analytics – это API на базе искусственного интеллекта, который создает подробные расшифровки звонков и готовит полезную аналитику разговоров, которую можно добавить в приложения для звонков для улучшения качества обслуживания клиентов и производительности агентов. Он сочетает мощные модели преобразования речи в текст и настраиваемую обработку естественного языка (NLP), которые обучаются специально, чтобы понимать особенности обслуживания клиентов и исходящих звонков в сфере продаж. Этот API входит в число решений AWS Contact Center Intelligence (CCI), не зависит от контакт-центра и позволяет клиентам и поставщикам с легкостью добавлять возможности аналитики звонков в свои приложения.
Вопрос. Для чего предназначен сервис Amazon Transcribe Call Analytics?
Аналитика звонков Amazon Transcribe может проводить аналитику как в реальном времени, так и после звонка. С помощью Аналитики звонков можно быстрее получать ценные сведения, например оценку настроения клиентов и агентов, источники и категории звонков, резюмирование звонков, а также добавлять их в виде данных API в любое приложение для входящих или исходящих вызовов. К типичным примерам использования относятся помощь агентам, оповещения супервизора, аналитика и резюмирование звонков. Вот два примера решений с открытым исходным кодом, которые основаны на Аналитике звонков Amazon Transcribe: Анализ данных во время звонка и помощь агентам и Анализ данных после звонка.
Вопрос. Как начать работу с Amazon Transcribe Call Analytics?
Вы можете использовать Transcribe Call Analytics через API и консоль управления AWS. С помощью них можно создавать и отслеживать задания аналитики. В консоли доступен список заданий аналитики и страница сведений о задании с изначальными параметрами и предварительным результатами JSON. Также можно создавать и редактировать категории с помощью API или консоли для автоматической функции категоризации контактов.
Вопрос. Какие языки поддерживает Amazon Transcribe Call Analytics?
Подробнее о доступности языков в Amazon Transcribe Call Analytics см. в документации Amazon Transcribe.
Вопрос. В каких регионах AWS доступен сервис Amazon Transcribe Call Analytics?
Ознакомьтесь сдокументацией по региональным сервисам AWS, чтобы узнать о том, в каких регионах AWS работает Аналитика звонков Amazon Transcribe. Обратите внимание, что генеративное резюмирование звонков Аналитики звонков Amazon Transcribe в настоящее время доступно только в регионах Восток США (Северная Вирджиния) и Запад США (Орегон).
Вопрос. Доступно ли генеративное резюмирование звонков с помощью API Аналитики звонков Amazon Transcribe как после звонка, так и в реальном времени?
В настоящее время генеративное резюмирование звонков с помощью API Аналитики звонков Amazon Transcribe доступно только после звонков.
Вопрос. Как происходит ценообразование на Amazon Transcribe Call Analytics?
Оплата за API Amazon Transcribe Call Analytics будет начисляться отдельно от стандартных API Amazon Transcribe. Дополнительные сведения см. на странице цен Amazon Transcribe.
Amazon Transcribe Medical
Вопрос. Что такое Amazon Transcribe Medical?
Amazon Transcribe Medical – это сервис автоматического распознавания речи (ASR), позволяющий разработчикам без труда добавлять в свои приложения возможности преобразования речевой информации по медицинской тематике в текст. Amazon Transcribe Medical позволяет быстро и точно расшифровать надиктованную и разговорную речь по медицинской тематике для самых различных целей, например для записи примечаний врача или для обработки текста в дальнейшем анализе для извлечения ценной аналитической информации.
Вопрос. Для чего предназначен сервис Amazon Transcribe Medical?
Amazon Transcribe Medical использует продвинутые модели машинного обучения для точного преобразования речевой информации по медицинской тематике в текст. Сервис Transcribe Medical может создавать текстовые расшифровки для поддержки различных примеров использования, от работы с документацией в клиниках и мониторинга безопасности лекарственных средств (фармаконадзора) до создания субтитров при оказании телемедицинских услуг и даже аналитики переговоров в контактных центрах, работающих в сфере здравоохранения и медико‑биологических разработок.
Вопрос. Нужно ли быть экспертом в области автоматического распознавания речи (ASR), чтобы использовать Amazon Transcribe Medical?
Нет, для использования Amazon Transcribe Medical знания в области ASR или машинного обучения не требуются. Достаточно вызвать API Transcribe Medical, и сервис выполнит необходимое машинное обучение на стороне сервера для преобразования речевой информации по медицинской тематике в текст.
Вопрос. Как начать работу с Amazon Transcribe Medical?
Начать работу с Amazon Transcribe Medical можно с помощью Консоли управления AWS или SDK. Подробные сведения приведены на странице технической документации.
Для тестирования сервиса Amazon Transcribe Medical предоставляется уровень бесплатного пользования. Подробную информацию см. на странице цен.
Вопрос. Какие языки поддерживает Amazon Transcribe Medical?
В настоящее время Amazon Transcribe Medical поддерживает расшифровку информации по медицинской тематике на американском английском языке.
Вопрос. Какие разделы медицины поддерживает Amazon Transcribe Medical?
Amazon Transcribe Medical поддерживает транскрибирование для расширяющегося перечня специальностей по части первичной и специализированной помощи. Полный перечень поддерживаемых разделов медицины см. в документации.
Вопрос. В каких регионах AWS доступен сервис Amazon Transcribe Medical?
См. документацию по региональным сервисам AWS, чтобы узнать о региональном обслуживании AWS для Amazon Transcribe Medical.
Вопрос. Сколько стоит использование Amazon Transcribe Medical?
Для получения подробных сведений о ценах см. страницу цен на Amazon Transcribe Medical.
Вопрос. Соответствует ли сервис Amazon Transcribe Medical требованиям HIPAA?
Да.
Вопрос. Используется ли контент, обрабатываемый Amazon Transcribe Medical, для каких‑либо целей, кроме предоставления сервиса?
Обрабатываемый контент не используется ни для каких других целей, кроме как для предоставления и поддержки сервиса Amazon Transcribe Medical. Этот контент не используется для разработки или улучшения качества Amazon Transcribe Medical или каких бы то ни было других технологий Amazon в сфере машинного обучения / искусственного интеллекта.
Вопрос. Продолжает ли сервис Amazon Transcribe Medical обучаться?
Да. В Amazon Transcribe Medical используется машинное обучение. Сервис непрерывно обучается для повышения качества работы в различных примерах использования. Amazon Transcribe Medical не хранит и не использует предоставленные данные клиентов для обучения моделей.
Вопрос. Что еще следует знать до начала использования сервиса Amazon Transcribe Medical?
Использование Amazon Transcribe Medical не заменяет профессиональные медицинские консультации, диагностику и лечение. Вы и ваши конечные пользователи, основываясь на собственном опыте и суждениях, несете ответственность за определение правильности, полноты, своевременности и пригодности любой информации, предоставленной Amazon Transcribe Medical. Только вы и ваши конечные пользователи ответственны за любые решения, советы, действия и (или) отказы от действий, которые основаны на использовании Amazon Transcribe Medical.
Amazon Transcribe Medical не может точно идентифицировать закрытую медицинскую информацию при любых обстоятельствах и не отвечает требованиям HIPAA для удаления персональной закрытой медицинской информации. Пользователь несет ответственность за оценку результатов, предоставленных сервисом Amazon Transcribe Medical, чтобы убедиться в их соответствии своим потребностям.
Пользовательские языковые модели
Вопрос. Какие функциональные возможности пользовательских языковых моделей доступны на сегодняшний день?
Вы можете использовать пользовательские языковые модели (CLM) для обучения и разработки языковых моделей для определенных сфер. CLM в настоящий момент пакетную расшифровку английского (Австралия), английского (Великобритания), хинди, английского (США) и испанского (США) потоковую расшифровку английского (США). CLM поддерживает одновременное использование пользовательского словаря для пакетной расшифровки.
Вопрос. Какой объем и тип обучающих данных требуется? Как получить данные? Должны ли данные иметь определенный формат?
Текстовые данные должны соответствовать аудиозаписи, которая будет расшифрована с помощью пользовательской модели. В них должно содержаться как можно больше слов, фраз и словосочетаний, относящихся к предметной области. Мы рекомендуем использовать связный текст, содержащий от 100 тыс. до 10 млн слов. Текстовые данные можно взять из любых собственных или общедоступных источников (например, использовать текст с веб‑сайта клиентов). Мы рекомендуем, чтобы каждый файл обычного текста содержал не менее 200 000 слов, а общий размер файла не превышал 1 ГБ. Текст должен иметь кодировку UTF-8 и содержать по одному предложению в каждой строке. Каждое предложение должно содержать знаки препинания. Пользователи должны обеспечить проверку орфографии, удаление символов форматирования и проверку кодировки.
Вопрос. Как применяются пользовательские языковые модели (CLM)?
Для обучения пользовательской языковой модели клиенты просто отправляют текстовые данные в корзину Amazon S3. После этого пользователи могут работать с консолью сервиса Amazon Transcribe для загрузки и обработки данных для обучения пользовательской языковой модели. Обучение полностью автоматизировано и требует минимального вмешательства со стороны пользователя. Когда окончательная пользовательская модель готова, она становится доступной в аккаунте AWS клиента для расшифровки аудиофайлов конкретной тематики. Более того, клиенты могут обучить несколько пользовательских моделей для различных вариантов применения.
Вопрос. Вы обеспечиваете какие-либо улучшения? Стоит ли тратить усилия на сбор текстовых данных?
Улучшения не гарантируются. Результат зависит от степени соответствия текстовых данных аудиозаписи и от объема предоставленных данных. Чем больше данных, тем лучше, но наиболее важно, чтобы данные включали слова и их последовательности, которые предположительно встречаются в аудиофайлах, требующих расшифровки. Повышение точности расшифровки будет зависеть от качества обучающих данных, а также от варианта использования. В некоторых сценариях общий сравнительный эталонный анализ показывает относительное улучшение точности на 10–15 %.
Вопрос. Сколько времени занимает обучение модели? Когда ее можно будет использовать?
Обучение моделей обычно длится 6–10 часов. Время обучения зависит от объема набора данных. Пользовательская модель становится доступной сразу после завершения обучения.
Вопрос. Как я смогу использовать модель? Как узнать, работает ли она лучше, чем стандартная модель, предоставляемая сервисом Amazon Transcribe?
Модель будет доступна в вашем аккаунте с идентификатором, который вы присвоили ей до начала обучения. Чтобы использовать модель, в запрос на расшифровку необходимо добавить флаг с идентификатором модели. Вам требуется протестировать модель на своих аудиофайлах и сравнить результат с результатами, полученными от стандартного движка.
Вопрос. Сколько пользовательских языковых моделей я могу обучить? Можно ли включить несколько моделей одновременно для моего аккаунта?
В одном аккаунте AWS всегда можно одновременно обучать до пяти различных моделей. По умолчанию для каждого аккаунта можно сохранить не более 10 моделей. Если требуется больше моделей, сервисный лимит можно увеличить здесь.
Вопрос. Поддерживаются ли пользовательские акустические модели?
Нет, пользовательские акустические модели не поддерживаются. Пользовательские языковые модели создаются на основе текстовых данных, которые соответствуют варианту использования или предметной области.
Подробнее о ценах на использование сервиса Amazon Transcribe