Это самый сильный удар по бизнес-модели коммерческих генераторов аватаров. Разработчики выложили в опенсорс PersonaLive — диффузионную модель, которая делает из одной статической фотографии живого стримящего персонажа. Вы загружаете референс, включаете веб-камеру, и лицо на картинке начинает синхронно повторять вашу мимику кадр за кадром.
В отличие от предыдущих talking-head нейросетей, здесь нет лимита генерации в несколько секунд и неприятных артефактов склейки. Видео создается бесконечным потоком без предварительного рендера. Для локального запуска достаточно обычной игровой видеокарты с 12 ГБ памяти. А если задействовать пайплайн TensorRT, скорость работы возрастает в два раза прямо из коробки!
Энтузиасты уже выпустили ноду для интеграции проекта в ComfyUI. То, за что крупные платформы просят около сотни долларов каждый месяц, теперь работает на локалхосте через браузер. Индустрия виртуальных ведущих получила рабочий инструмент для потокового вещания без дорогих подписок.
Поделиться:
Laguna XS.2: открытая 33B-модель для агентского кодинга на локальных машинах →
Кинематографичный ИИ-клип: сложная физика шторма и инерция объектов в The Lighthouse of a Free Destiny →