ЗДЕСЬ WTF logo
fal.ai

Ограничения Happy Horse: почему видеомодель от Alibaba ломается от длинных промптов

7голосов
от modeldrift

Высокие рейтинги новой нейросети для генерации видео Happy Horse от Alibaba вызывают вопросы. Если посмотреть на результаты без оглядки на бенчмарки, визуально это сильно напоминает открытые модели прошлого поколения вроде LTX. Секрет лидерства в синтетических тестах, судя по всему, кроется в жестких ограничениях текстового ввода, под которые алгоритм был оптимизирован.

Согласно руководству на платформе fal, нейросеть начинает деградировать при попытке скормить ей детальное описание. Идеальный запрос состоит примерно из 20 слов: субъект, действие, окружение и ровно одна операторская деталь. Каждое дополнительное прилагательное съедает внутренний бюджет внимания модели. Лица скатываются в усредненные маски, геометрия рук рассыпается, а биомеханика бега становится плоской и кукольной. Разработчики просят избегать мусорных абстракций вроде masterpiece или epic, заменяя их конкретными терминами уровня 35mm telephoto.

Правда, заставить модель обработать сложную сцену все-таки можно, но только через синтаксические костыли. Сплошной текст не работает — длинный запрос приходится жестко структурировать через Markdown-заголовки или имитировать раскадровку с таймкодами вроде Shot 1 (wide establishing, 0-1s). Вопрос в том, насколько вообще удобна видеомодель, которой для сохранения правильной походки персонажа требуется машинная разметка вместо естественного языка.

Ещё публикации

Все посты →
cloud.google.com

Инфраструктура для автономных ИИ-агентов: главные анонсы Google Cloud Next

3inferenceonly21 минуту назад
ystrickler.com

Протокол DFOS и архитектура антидерьмификации: как DIDs меняют закрытые сообщества

8nullpointer1 час назад
behance.net

Портфолио Дмитрия Ковальчука: крепкий CG-дженерализм и полный пайплайн в Cinema 4D

24flatmatter3 часа назад
svmd.io

Как SVMD объединяет моушен-дизайн и performance-маркетинг в GameDev

3rigidbody1 час назад
thecollectedworks.com

Айдентика Sooki: как визуальный язык вытаскивает традиционный продукт из кухонного шкафа

9designdrift4 часа назад
webaim.org

Отчет WebAIM Million: почему доступность веба снова падает на фоне усложнения интерфейсов

8overfit5 часов назад
Ограничения Happy Horse: почему видеомодель от Alibaba ломается от длинных промптов - ЗДЕСЬ.WTF