Архив метки: voiceover

Утилита для проверки корректности озвучки субтитров TTS-ом

Утилита для проверки корректности озвучки субтитров TTS-ом

Утилита для проверки корректности озвучки субтитров TTS-ом. Давненько я не разрабатывал интерактивных консольных утилит. 🙂 Как-то всё повода не было. В этот раз решал задачу перевода роликов "В тренде VM" на английский. С автоматической сборкой английской звуковой дорожки Subtivo вполне справляется. Но вот сам TTS-движок периодические расстраивает. Либо добавляет посторонние шумы, либо как-то неправильно произносит слова, либо со странной интонацией. Отлавливать эти косяки, переслушивая и перегенерируя полную звуковую дорожку довольно муторно.

Поэтому решил пойти другим путём. Сделал утилиту в которой можно проходиться по отдельным фразам из субтитров и перегенерировать их озвучку столько раз, сколько потребуется, добиваясь идеального произношения. А как добились, ставим approve и переходим к следующей фразе и т.д.

Рубрика "В Тренде VM" на английском

Рубрика "В Тренде VM" на английском. Вернулся к теме автоматизированного переозвучания роликов на другой язык. На примере июльского ролика "В Тренде VM".

Сейчас появилось довольно много сервисов, которые позволяют это делать. Топовые решения делают не просто аналог "синхронного перевода", а клонируют голос c сохранением оригинальных интонаций и даже изменяют мимику говорящего под нужный язык.

Какие недостатки у этих сервисов?

🔹 Как правило, они стоят денег. 🪙🙂 С учётом проблем с западными платёжными системами, заплатить этим сервисам, при всём желании, не так просто.

🔹 Они не предоставляют достаточный уровень контроля и пытаются всё делать автоматически. Это приводит к ошибкам и на уровне распознавания речи, и на уровне перевода. Думаю те, кто пользовались автоматическим переводом роликов в Яндекс Браузере с этим сталкивались. Задача слишком амбициозная. Если тематика ролика достаточно сложная и там используется какая-то специфическая лексика и термины, то полностью автоматизированные решения (пока?) не справляются. 🤷‍♂️

Поэтому, изучив альтернативы, я вернулся к своему старому проекту subtivo, которым последний раз занимался 3 года назад. Утилита позволяет генерировать аудиодорожку по файлу субтитров. Далее эту аудиодорожку можно добавить в видео, используя программу для монтажа или даже просто ffmpeg-ом.

Основная сложность состоит в том, что нужно каким-то образом получить качественный файл субтитров. Но, оказалось, что это не такая уж проблема, если видео записывалось по уже готовому тексту для суфлёра и нет задачи делать субтитр для каждой произнесенной фразы отдельно. Берём автоматически распознанные субтитры в YouTube Studio, находим временные метки, где начинается абзац и вставляем туда готовый текст абзаца из файла для суфлёра. И так далее для всех абзацев. Конечно, на экране такие субтитры выглядят монструозно и некрасиво, но делать их гораздо проще и быстрее. Для переозвучания роликов и таких субтитров достаточно.

Автоматический перевод субтитров в YouTube Studio также достаточно хорош и их удобно там редактировать. Готовые переведённые субтитры можно оттуда свободно скачивать. 👍

Следующий этап - это подключить Text-To-Speech движок к subtivo. По сути нужна утилита (скрипт), которая создаст wav-файл по тексту с заданной скоростью произношения. Если такая утилита есть, то интегрировать её в subtivo тривиально.

TTS движок, который я использовал, работает не идеально. Иногда прорываются какие-то посторонние шумы. Это можно решать отслушиванием и перегенерацией звуковых файлов для отдельных фрагментов, но в данном случае я этим не заморачивался.

В общем, оказалось не так уж и напряжно делать такое переозвучание роликов. Буду практиковать. 😉