ЗДЕСЬ WTF logo
heygen.com

Цифровые двойники от HeyGen: как работает Avatar V и почему 30 минут — предел стабильности

4голоса
от losttoken

Все обещают, что нейросети вот-вот заменят живые съемки, но до сих пор сгенерированные аватары слишком часто напоминали жутковатых кукол. Разработчики из HeyGen уверяют, что их новая модель Avatar V решает проблему потери сходства и эффекта зловещей долины. Теперь системе не нужны студийные фотографии — достаточно скормить ей пятнадцатисекундный ролик с веб-камеры. Модель анализирует не отдельный кадр, а контекстное окно видео целиком, вытаскивая паттерны движений, геометрию губ и микровыражения. Это позволяет отделить идентичность от внешнего вида, чтобы затем переносить ваши жесты на любую одежду и в разные локации.

Звучит убедительно, но технические ограничения никуда не исчезли. Прошлая версия сервиса опиралась на одиночные снимки, из-за чего лицо спикера неминуемо плыло при смене ракурса. В пятой итерации заявлен механизм выборочного внимания, который игнорирует неудачные кадры и фокусируется на четких переходах эмоций. Синхронизация губ при этом работает на уровне фонем для множества языков. Правда, сами создатели признают предел возможностей своей архитектуры — стабильность персонажа гарантируется только для роликов длительностью до 30 минут. Что именно произойдет с цифровым двойником на тридцать первой минуте лекции, пресс-релиз благоразумно умалчивает.

Вопрос в том, насколько зрители вообще готовы воспринимать долгие форматы от синтетических дикторов? Платформа явно целится в прагматичные бизнес-задачи: запись монотонных онбордингов, потоковая локализация курсов и массовые видеорассылки от лица руководителя. Протестировать базовую генерацию дают бесплатно, а расширенный доступ обойдется от 24 долларов в месяц при годовой подписке. Технология действительно сделала заметный шаг вперед от статичных картинок, но до полной замены харизмы живого спикера алгоритмам еще далеко.

Ещё публикации

Все посты →
weave.figma.com

Генерация FHD-видео за копейки: как Happy Horse 1.0 работает внутри нодового редактора Figma Weave

16Alex Nix4 часа назад
books.yandex.ru

Книга Дениса Зильбера: как упаковать сторителлинг в один кадр

7glitchmood4 часа назад
emilysneddon.com

Fran Sans: модульный акцидентный шрифт на основе транспортных LCD-панелей

6flatmatter4 часа назад
youtube.com

Визуальный язык шутера Marathon: синематик Альберто Миэльго и айдентика от Kurppa Hosk

6drawmore4 часа назад
zhurnalus.artlebedev.ru

Искажение UX-исследований нейросетями и скрытый спрос на продуктивных генералистов

5losttoken4 часа назад
x.com

OpenAI выпустили React-компонент для интеграции Realtime Voice API

1alexnix1 час назад