Утилита для проверки корректности озвучки субтитров TTS-ом. Давненько я не разрабатывал интерактивных консольных утилит. 🙂 Как-то всё повода не было. В этот раз решал задачу перевода роликов "В тренде VM" на английский. С автоматической сборкой английской звуковой дорожкиSubtivo вполне справляется. Но вот сам TTS-движок периодические расстраивает. Либо добавляет посторонние шумы, либо как-то неправильно произносит слова, либо со странной интонацией. Отлавливать эти косяки, переслушивая и перегенерируя полную звуковую дорожку довольно муторно.
Поэтому решил пойти другим путём. Сделал утилиту в которой можно проходиться по отдельным фразам из субтитров и перегенерировать их озвучку столько раз, сколько потребуется, добиваясь идеального произношения. А как добились, ставим approve и переходим к следующей фразе и т.д.
Установка RHVoice TTS на Linux с помощью Snap. Прежде чем выкладывать пост, я стараюсь прогонять его через Text To Speech, чтобы услышать и убрать все ошибки и "шероховатости". К сожалению, очередной "бесплатный" онлайн-TTS, которым я пользовался, обновился и начал просить денег. 🤷♂️
Поэтому я сделал очередной подход к локальным TTS-кам под Linux. В частности, к отечественной RHVoice. Несколько лет назад установку из исходников я не осилил. Сейчас же установка Snap-ом тривиальна. Как и использование.
sudo snap install rhvoice sudo rhvoice.vm -a # смотрим список голосов sudo rhvoice.vm -i BDL # устанавливаем голос cat test_en.txt | rhvoice.test -p BDL # читаем текст из файла sudo rhvoice.vm -i Artemiy cat test_rus.txt | rhvoice.test -p Artemiy
Ещё послушал интересное интервью из 2020-го с разработчиком RHVoice Ольгой Яковлевой. Она очень крутая. Как можно такую сложную штуку сделать в одиночку и будучи незрячей - просто невероятно! 🤯 Пример нам всем.
Рубрика "В Тренде VM" на английском. Вернулся к теме автоматизированного переозвучания роликов на другой язык. На примере июльского ролика "В Тренде VM".
Сейчас появилось довольно много сервисов, которые позволяют это делать. Топовые решения делают не просто аналог "синхронного перевода", а клонируют голос c сохранением оригинальных интонаций и даже изменяют мимику говорящего под нужный язык.
Какие недостатки у этих сервисов?
🔹 Как правило, они стоят денег. 🪙🙂 С учётом проблем с западными платёжными системами, заплатить этим сервисам, при всём желании, не так просто.
🔹 Они не предоставляют достаточный уровень контроля и пытаются всё делать автоматически. Это приводит к ошибкам и на уровне распознавания речи, и на уровне перевода. Думаю те, кто пользовались автоматическим переводом роликов в Яндекс Браузере с этим сталкивались. Задача слишком амбициозная. Если тематика ролика достаточно сложная и там используется какая-то специфическая лексика и термины, то полностью автоматизированные решения (пока?) не справляются. 🤷♂️
Поэтому, изучив альтернативы, я вернулся к своему старому проекту subtivo, которым последний раз занимался 3 года назад. Утилита позволяет генерировать аудиодорожку по файлу субтитров. Далее эту аудиодорожку можно добавить в видео, используя программу для монтажа или даже просто ffmpeg-ом.
Основная сложность состоит в том, что нужно каким-то образом получить качественный файл субтитров. Но, оказалось, что это не такая уж проблема, если видео записывалось по уже готовому тексту для суфлёра и нет задачи делать субтитр для каждой произнесенной фразы отдельно. Берём автоматически распознанные субтитры в YouTube Studio, находим временные метки, где начинается абзац и вставляем туда готовый текст абзаца из файла для суфлёра. И так далее для всех абзацев. Конечно, на экране такие субтитры выглядят монструозно и некрасиво, но делать их гораздо проще и быстрее. Для переозвучания роликов и таких субтитров достаточно.
Автоматический перевод субтитров в YouTube Studio также достаточно хорош и их удобно там редактировать. Готовые переведённые субтитры можно оттуда свободно скачивать. 👍
Следующий этап - это подключить Text-To-Speech движок к subtivo. По сути нужна утилита (скрипт), которая создаст wav-файл по тексту с заданной скоростью произношения. Если такая утилита есть, то интегрировать её в subtivo тривиально.
TTS движок, который я использовал, работает не идеально. Иногда прорываются какие-то посторонние шумы. Это можно решать отслушиванием и перегенерацией звуковых файлов для отдельных фрагментов, но в данном случае я этим не заморачивался.
В общем, оказалось не так уж и напряжно делать такое переозвучание роликов. Буду практиковать. 😉
Это мой личный блог. Всё, что я пишу здесь - моё личное мнение, которое никак не связано с моим работодателем. Все названия продуктов, логотипы и бренды являются собственностью их владельцев. Все названия компаний, продуктов и услуг, упоминаемые здесь, упоминаются только для идентификации. Упоминание этих названий, логотипов и брендов не подразумевает их одобрения (endorsement). Вы можете свободно использовать материалы этого сайта, но было бы неплохо, если бы вы разместили ссылку на https://avleonov.ru и отправили мне сообщение об этом на me@avleonov.com или связались со мной любым другим способом.