A Look at Upcoming Innovations in Electric and Autonomous Vehicles Блогер собрал ИИ-дубляжёр. Утки помогли

Блогер собрал ИИ-дубляжёр. Утки помогли

Блогер собрал ИИ-дубляжёр. Утки помогли

Российский продакт создал open-source утилиту для локального перевода и переозвучки видео - без подписок, без облаков и почти без бюджета

Идея пришла из TikTok. Блогер и основатель сервиса ArtGeneration.me Илья наткнулся на американский ролик про СДВГ с утками в главной роли, захотел сделать русскоязычный аналог - и вместо канала случайно написал полноценный ИИ-инструмент. Проект получил название Dub Studio и распространяется с открытым исходным кодом.

Шесть моделей вместо одной: почему не получилось проще

Первоначальный план был элегантным: одна омнимодальная нейросеть, которая сразу слушает аудио, читает надписи в кадре и переводит текст. Один файл, один прогон. Не вышло.

Главное ограничение - железо аудитории. У самого Ильи стоит RTX 4090 с 24 гигабайтами видеопамяти, но у большинства подписчиков - 12 гигов и меньше. Жирную модель туда просто не впихнуть. Ресёрч омни-решений показал неприятное: ни одна модель, влезающая в этот бюджет, не умеет нормально размечать речь по времени и по говорящим. Единственный реальный кандидат, MiniCPM-o, даже не дошёл до тестов - стало ясно, что класс задач ему не по зубам в принципе.

В итоге архитектура сложилась из шести специализированных компонентов:

  • Parakeet - распознавание речи
  • Sortformer - диаризация: кто и когда говорит
  • audio-separator (UVR) - отделение голоса от музыки и шумов
  • квантованная Gemma - чтение и перевод надписей в кадре
  • Qwen3-TTS - синтез и клонирование голоса
  • RapidOCR плюс libass - извлечение экранного текста и прожиг субтитров

Каждая модель весит немного. Все вместе укладываются в лимит. И на своём участке каждая работает лучше, чем одна большая модель на весь конвейер сразу.

TTS: лучший из того, что есть

Голосовой синтез - сердце дубляжа, и именно здесь выбор дался тяжелее всего. Илья прогнал несколько движков по метрикам и пришёл к неутешительному выводу: идеального TTS с клонированием голоса и нормальным русским попросту не существует. У каждого - свой набор провалов.

Победил Qwen3-TTS в сборке на Triton. Не потому что безупречен - нет. Главная слабость: иногда ставит ударения не туда, и слово звучит странно. Но он быстрый, лёгкий и работает быстрее реального времени. Лучший из доступных компромиссов - и именно так автор его и называет, без прикрас.

Редактор вместо Gradio: почему пришлось переписывать интерфейс

Изначально планировался простой CLI: кинул ролик - получил дубляж. Универсального автомата не получилось. У каждого видео своя вёрстка, модели ошибаются, без участия человека не выехать. Так появилась концепция полуавтоматики: движок берёт тяжёлую часть, человек правит остальное - но с живым превью, а не вслепую.

Gradio, на котором Илья собирал предыдущие портативки, для этого не подошёл. Это инструмент для быстрых MVP: один столбик, пара полей, кнопка. Нормальный редактор с холстом и субтитрами поверх видео на нём не построить. Кстати, тем, кто следит за развитием ИИ-инструментария в смежных областях, будет интересно сверить собственный график с расписанием Уимблдона 2026 - технологические дискуссии в профессиональном сообществе нередко совпадают с крупными медиасобытиями, когда тема локализации контента резко набирает актуальность.

В итоге фронт переписали на React с Konva для холста, субтитры рендерятся через JASSUB прямо поверх видео, бэкенд - FastAPI. Главная боль при сборке - превью: сначала один кадр рендерился 25 секунд. После оптимизации - 0,14 секунды. Вот после этого редактор и стал пригодным для работы.

Dub Studio - это честный рабочий инструмент, собранный целиком на компромиссах. Квантованные модели, полуавтоматический процесс, местами шероховатая озвучка. Зато офлайн, бесплатно и без цензуры. А утиный ролик про СДВГ до сих пор остаётся главным тестовым файлом проекта.