Архитектура AsymFlow позволяет напрямую переносить обученные латентные диффузионки в пиксельное пространство. На ее базе авторы дообучили девятимиллиардную модель FLUX.2 klein. Новая версия генерирует изображения без использования VAE, что ускоряет процесс на 40% и избавляет от характерного замыливания мелких деталей.
Обычно генерация в несжатом пиксельном пространстве сжигает емкость трансформера на обработку многомерного шума. Метод использует рангово-асимметричную параметризацию: модель предсказывает шум только в низкоранговом подпространстве, а предсказание самих данных оставляет полноразмерным. Затем полная скорость генерации восстанавливается аналитически без изменения архитектуры. Это дает возможность сохранить высокоуровневую семантику оригинальной латентной сети, поэтому файнтюнинг направлен исключительно на коррекцию низкоуровневых текстур.
На бенчмарке ImageNet 256x256 архитектура выдает 1.57 FID, с запасом обходя предыдущие пиксельные DiT-модели. Дообученная AsymFLUX.2 klein также заняла первую строчку в тесте HPSv3 с результатом 10.66, обогнав свою базовую латентную версию. Исходный код уже опубликован, протестировать логику можно в демо на HuggingFace, а релиз нод для среды ComfyUI ожидается в ближайшие дни.
Поделиться:
Открытая база зарплат в геймдеве: сбор анонимной статистики по рынку →
Odd Meter ищет 3D-художников для мрачного экшена в сеттинге чугунного панка →