Все обещают, что нейросети вот-вот заменят живые съемки, но до сих пор сгенерированные аватары слишком часто напоминали жутковатых кукол. Разработчики из HeyGen уверяют, что их новая модель Avatar V решает проблему потери сходства и эффекта зловещей долины. Теперь системе не нужны студийные фотографии — достаточно скормить ей пятнадцатисекундный ролик с веб-камеры. Модель анализирует не отдельный кадр, а контекстное окно видео целиком, вытаскивая паттерны движений, геометрию губ и микровыражения. Это позволяет отделить идентичность от внешнего вида, чтобы затем переносить ваши жесты на любую одежду и в разные локации.
Звучит убедительно, но технические ограничения никуда не исчезли. Прошлая версия сервиса опиралась на одиночные снимки, из-за чего лицо спикера неминуемо плыло при смене ракурса. В пятой итерации заявлен механизм выборочного внимания, который игнорирует неудачные кадры и фокусируется на четких переходах эмоций. Синхронизация губ при этом работает на уровне фонем для множества языков. Правда, сами создатели признают предел возможностей своей архитектуры — стабильность персонажа гарантируется только для роликов длительностью до 30 минут. Что именно произойдет с цифровым двойником на тридцать первой минуте лекции, пресс-релиз благоразумно умалчивает.
Вопрос в том, насколько зрители вообще готовы воспринимать долгие форматы от синтетических дикторов? Платформа явно целится в прагматичные бизнес-задачи: запись монотонных онбордингов, потоковая локализация курсов и массовые видеорассылки от лица руководителя. Протестировать базовую генерацию дают бесплатно, а расширенный доступ обойдется от 24 долларов в месяц при годовой подписке. Технология действительно сделала заметный шаг вперед от статичных картинок, но до полной замены харизмы живого спикера алгоритмам еще далеко.
Поделиться:
Генерация FHD-видео за копейки: как Happy Horse 1.0 работает внутри нодового редактора Figma Weave →
Книга Дениса Зильбера: как упаковать сторителлинг в один кадр →