Генерация видео уходит от формата одного промпта. Разработчики Happy Oyster представили новую мультимодальную world-модель. Она генерирует сцены в реальном времени. Система реагирует на команды прямо в процессе рендера. Модель одновременно создает видео и звук. Физика, освещение и логика объектов остаются стабильными на протяжении всего ролика.
Инструмент предлагает два режима. Первый — Directing. Это интерактивная режиссура с длиной видео до 3 минут в 720p. Нейросеть выдает непрерывный поток кадров. Пользователь вмешивается текстом или голосом в любой момент. Можно сменить ракурс, направить персонажа или изменить сюжет. Окружение перестраивается на лету без остановки генерации.
Второй режим — Wandering. Это создание пространства с управлением через стандартную раскладку WASD. Сессия длится до 1 минуты в разрешении 480p. По тексту или исходному изображению собирается стабильная 3D-сцена. Пользователь перемещается по ней от первого лица. Объекты сохраняют свои координаты на карте. Перспектива и освещение пересчитываются динамически при движении виртуальной камеры. Инструмент заточен под быстрое прототипирование игр и концепт-артов.
Поделиться:
Почему базовые нейросети проваливают задачи продуктового 3D, и как кастомная LoRA спасает консистентность графики →
Автор термина «метавселенная» Нил Стивенсон объяснил, почему проект Meta за $80 млрд был обречен →