Российский продакт создал open-source утилиту для локального перевода и переозвучки видео - без подписок, без облаков и почти без бюджета
Идея пришла из TikTok. Блогер и основатель сервиса ArtGeneration.me Илья наткнулся на американский ролик про СДВГ с утками в главной роли, захотел сделать русскоязычный аналог - и вместо канала случайно написал полноценный ИИ-инструмент. Проект получил название Dub Studio и распространяется с открытым исходным кодом.
Шесть моделей вместо одной: почему не получилось проще
Первоначальный план был элегантным: одна омнимодальная нейросеть, которая сразу слушает аудио, читает надписи в кадре и переводит текст. Один файл, один прогон. Не вышло.
Главное ограничение - железо аудитории. У самого Ильи стоит RTX 4090 с 24 гигабайтами видеопамяти, но у большинства подписчиков - 12 гигов и меньше. Жирную модель туда просто не впихнуть. Ресёрч омни-решений показал неприятное: ни одна модель, влезающая в этот бюджет, не умеет нормально размечать речь по времени и по говорящим. Единственный реальный кандидат, MiniCPM-o, даже не дошёл до тестов - стало ясно, что класс задач ему не по зубам в принципе.
В итоге архитектура сложилась из шести специализированных компонентов:
- Parakeet - распознавание речи
- Sortformer - диаризация: кто и когда говорит
- audio-separator (UVR) - отделение голоса от музыки и шумов
- квантованная Gemma - чтение и перевод надписей в кадре
- Qwen3-TTS - синтез и клонирование голоса
- RapidOCR плюс libass - извлечение экранного текста и прожиг субтитров
Каждая модель весит немного. Все вместе укладываются в лимит. И на своём участке каждая работает лучше, чем одна большая модель на весь конвейер сразу.
TTS: лучший из того, что есть
Голосовой синтез - сердце дубляжа, и именно здесь выбор дался тяжелее всего. Илья прогнал несколько движков по метрикам и пришёл к неутешительному выводу: идеального TTS с клонированием голоса и нормальным русским попросту не существует. У каждого - свой набор провалов.
Победил Qwen3-TTS в сборке на Triton. Не потому что безупречен - нет. Главная слабость: иногда ставит ударения не туда, и слово звучит странно. Но он быстрый, лёгкий и работает быстрее реального времени. Лучший из доступных компромиссов - и именно так автор его и называет, без прикрас.
Редактор вместо Gradio: почему пришлось переписывать интерфейс
Изначально планировался простой CLI: кинул ролик - получил дубляж. Универсального автомата не получилось. У каждого видео своя вёрстка, модели ошибаются, без участия человека не выехать. Так появилась концепция полуавтоматики: движок берёт тяжёлую часть, человек правит остальное - но с живым превью, а не вслепую.
Gradio, на котором Илья собирал предыдущие портативки, для этого не подошёл. Это инструмент для быстрых MVP: один столбик, пара полей, кнопка. Нормальный редактор с холстом и субтитрами поверх видео на нём не построить. Кстати, тем, кто следит за развитием ИИ-инструментария в смежных областях, будет интересно сверить собственный график с расписанием Уимблдона 2026 - технологические дискуссии в профессиональном сообществе нередко совпадают с крупными медиасобытиями, когда тема локализации контента резко набирает актуальность.
В итоге фронт переписали на React с Konva для холста, субтитры рендерятся через JASSUB прямо поверх видео, бэкенд - FastAPI. Главная боль при сборке - превью: сначала один кадр рендерился 25 секунд. После оптимизации - 0,14 секунды. Вот после этого редактор и стал пригодным для работы.
Dub Studio - это честный рабочий инструмент, собранный целиком на компромиссах. Квантованные модели, полуавтоматический процесс, местами шероховатая озвучка. Зато офлайн, бесплатно и без цензуры. А утиный ролик про СДВГ до сих пор остаётся главным тестовым файлом проекта.