Высокие рейтинги новой нейросети для генерации видео Happy Horse от Alibaba вызывают вопросы. Если посмотреть на результаты без оглядки на бенчмарки, визуально это сильно напоминает открытые модели прошлого поколения вроде LTX. Секрет лидерства в синтетических тестах, судя по всему, кроется в жестких ограничениях текстового ввода, под которые алгоритм был оптимизирован.
Согласно руководству на платформе fal, нейросеть начинает деградировать при попытке скормить ей детальное описание. Идеальный запрос состоит примерно из 20 слов: субъект, действие, окружение и ровно одна операторская деталь. Каждое дополнительное прилагательное съедает внутренний бюджет внимания модели. Лица скатываются в усредненные маски, геометрия рук рассыпается, а биомеханика бега становится плоской и кукольной. Разработчики просят избегать мусорных абстракций вроде masterpiece или epic, заменяя их конкретными терминами уровня 35mm telephoto.
Правда, заставить модель обработать сложную сцену все-таки можно, но только через синтаксические костыли. Сплошной текст не работает — длинный запрос приходится жестко структурировать через Markdown-заголовки или имитировать раскадровку с таймкодами вроде Shot 1 (wide establishing, 0-1s). Вопрос в том, насколько вообще удобна видеомодель, которой для сохранения правильной походки персонажа требуется машинная разметка вместо естественного языка.
Поделиться:
Инфраструктура для автономных ИИ-агентов: главные анонсы Google Cloud Next →
Протокол DFOS и архитектура антидерьмификации: как DIDs меняют закрытые сообщества →