Обычно развитие открытых видеомоделей измеряют сложными бенчмарками и пониманием физики. На деле же настоящим драйвером снятия архитектурных ограничений снова становится порнография. Сообщество называет релиз Sulphur 2 Base своеобразным Pony-моментом для видеогенерации. Авторы взяли базовую модель LTX 2.3, которая откровенно плохо справлялась с человеческой анатомией, и натренировали полноценный чекпоинт с одной целью — полностью вырезать встроенную цензуру.
Масштаб проделанной работы вызывает смешанные чувства. В датасет залили 125 000 видеороликов, каждый по десять секунд при 24 кадрах в секунду. Примечательно, что из обучающей выборки намеренно удалили весь 2D-контент и аниме, оставив только бескомпромиссный реализм. Это косвенно подтверждает известную проблему: смешивание стилизаций в таких узконаправленных файнтюнах сильно деградирует итоговый результат генерации.
Вопрос лишь в том, какую цену придется заплатить за правильную геометрию тел. Обучение целой модели, а не легковесной LoRA, исключительно на специфическом контенте почти всегда ведет к катастрофическому забыванию других концептов. Тот факт, что энтузиастам приходится применять грубую силу датасетов просто для обхода базовых фильтров безопасности, отлично показывает хрупкость изначального выравнивания LTX.
Поделиться:
Unity запустила встроенного AI-агента с поддержкой генерации сцен и интеграцией MCP →
Инженерный подход к портретной съемке: алгоритм тестирования 81 ракурса и выбор фокусного расстояния →