Архив метки: TTS

Установка RHVoice TTS на Linux с помощью Snap

Установка RHVoice TTS на Linux с помощью Snap

Установка RHVoice TTS на Linux с помощью Snap. Прежде чем выкладывать пост, я стараюсь прогонять его через Text To Speech, чтобы услышать и убрать все ошибки и "шероховатости". К сожалению, очередной "бесплатный" онлайн-TTS, которым я пользовался, обновился и начал просить денег. 🤷‍♂️

Поэтому я сделал очередной подход к локальным TTS-кам под Linux. В частности, к отечественной RHVoice. Несколько лет назад установку из исходников я не осилил. Сейчас же установка Snap-ом тривиальна. Как и использование.

sudo snap install rhvoice
sudo rhvoice.vm -a
# смотрим список голосов
sudo rhvoice.vm -i BDL
# устанавливаем голос
cat test_en.txt | rhvoice.test -p BDL
# читаем текст из файла
sudo rhvoice.vm -i Artemiy
cat test_rus.txt | rhvoice.test -p Artemiy

Ещё послушал интересное интервью из 2020-го с разработчиком RHVoice Ольгой Яковлевой. Она очень крутая. Как можно такую сложную штуку сделать в одиночку и будучи незрячей - просто невероятно! 🤯 Пример нам всем.

Рубрика "В Тренде VM" на английском

Рубрика "В Тренде VM" на английском. Вернулся к теме автоматизированного переозвучания роликов на другой язык. На примере июльского ролика "В Тренде VM".

Сейчас появилось довольно много сервисов, которые позволяют это делать. Топовые решения делают не просто аналог "синхронного перевода", а клонируют голос c сохранением оригинальных интонаций и даже изменяют мимику говорящего под нужный язык.

Какие недостатки у этих сервисов?

🔹 Как правило, они стоят денег. 🪙🙂 С учётом проблем с западными платёжными системами, заплатить этим сервисам, при всём желании, не так просто.

🔹 Они не предоставляют достаточный уровень контроля и пытаются всё делать автоматически. Это приводит к ошибкам и на уровне распознавания речи, и на уровне перевода. Думаю те, кто пользовались автоматическим переводом роликов в Яндекс Браузере с этим сталкивались. Задача слишком амбициозная. Если тематика ролика достаточно сложная и там используется какая-то специфическая лексика и термины, то полностью автоматизированные решения (пока?) не справляются. 🤷‍♂️

Поэтому, изучив альтернативы, я вернулся к своему старому проекту subtivo, которым последний раз занимался 3 года назад. Утилита позволяет генерировать аудиодорожку по файлу субтитров. Далее эту аудиодорожку можно добавить в видео, используя программу для монтажа или даже просто ffmpeg-ом.

Основная сложность состоит в том, что нужно каким-то образом получить качественный файл субтитров. Но, оказалось, что это не такая уж проблема, если видео записывалось по уже готовому тексту для суфлёра и нет задачи делать субтитр для каждой произнесенной фразы отдельно. Берём автоматически распознанные субтитры в YouTube Studio, находим временные метки, где начинается абзац и вставляем туда готовый текст абзаца из файла для суфлёра. И так далее для всех абзацев. Конечно, на экране такие субтитры выглядят монструозно и некрасиво, но делать их гораздо проще и быстрее. Для переозвучания роликов и таких субтитров достаточно.

Автоматический перевод субтитров в YouTube Studio также достаточно хорош и их удобно там редактировать. Готовые переведённые субтитры можно оттуда свободно скачивать. 👍

Следующий этап - это подключить Text-To-Speech движок к subtivo. По сути нужна утилита (скрипт), которая создаст wav-файл по тексту с заданной скоростью произношения. Если такая утилита есть, то интегрировать её в subtivo тривиально.

TTS движок, который я использовал, работает не идеально. Иногда прорываются какие-то посторонние шумы. Это можно решать отслушиванием и перегенерацией звуковых файлов для отдельных фрагментов, но в данном случае я этим не заморачивался.

В общем, оказалось не так уж и напряжно делать такое переозвучание роликов. Буду практиковать. 😉