Создатели нейросетей давно обещают идеальный видеомонтаж по текстовому запросу, где меняется только целевой объект, а окружение не превращается в кашу. Команда Runway заявляет, что модель Aleph 2.0 вплотную подобралась к решению проблемы темпоральной консистентности. Механика простая: вносим правку в один кадр, а алгоритм экстраполирует ее на весь ролик, якобы не затрагивая оригинальный свет и фон.
Технические характеристики обновления выглядят уверенно. Модель переваривает видео длиной до 30 секунд в 1080p и, что важнее, умеет проносить изменения через монтажные склейки. Чтобы пользователи не жгли лимиты на неудачные генерации, добавили промежуточный этап: сначала система выдает статичный кадр с обновленным объектом, и только после утверждения рендерит всю секвенцию целиком.
Вопрос в том, насколько стабильно Aleph 2.0 удерживает генерацию за пределами выверенных студийных демо. Главная болезнь ИИ-монтажа — микрогаллюцинации на границах объектов и мерцание текстур при быстром движении камеры или перекрытии слоев. Заявление о том, что нейросеть меняет исключительно запрошенные детали, звучит амбициозно. Правда, на практике трекинг сложной геометрии на длинных дистанциях все еще чаще оказывается лотереей, чем предсказуемым инструментом для продакшена.
Поделиться:
Исследование Meta-Agent Challenge: оценка способности ИИ к автономной разработке агентов →
Brila: генератор сайтов для малого бизнеса, который пишет тексты на основе отзывов из Google Maps →