Мало кто обратил внимание на изящный технический трюк в свежем проекте LumiPic. Вместо того чтобы обучать тяжелую диффузионную модель понимать широкий динамический диапазон с нуля, авторы пошли другим путем. Они взяли стандартный VAE, который аппаратно ничего не знает про HDR, и "скормили" ему данные, сжатые в цветовое пространство ARRI LogC3. Для замороженного энкодера это выглядит как обычная картинка в диапазоне от нуля до единицы, но при декодировании на выходе получается честный линейный EXR, значения яркости в котором в 55 раз превышают стандартный белый цвет.
По сути, это прямая адаптация недавнего ресерча LumiVid для статических изображений. Вся логика упакована в легковесный LoRA-адаптер, который учит базовый Diffusion Transformer (DiT) генерировать результат в логарифмическом профиле. Прием абсолютно не зависит от архитектуры основы. Сейчас продакшен-версия работает поверх тяжелой Qwen-Image-Edit-2511 (база весит около 54 ГБ), но в репозитории уже лежат альфа-версии адаптеров для свежих FLUX.2-klein на 4B и 9B параметров. Младшая модель отрабатывает вдвое быстрее и требует значительно меньше видеопамяти.
Если заглянуть в исходники, выясняется специфическая деталь: инференс жестко завязан на единственный хардкодный промпт Convert this image to HDR. Менять текст запроса бессмысленно, так как веса тренировались исключительно под эту фразу. Разворачивается система через Python API, но для локальных экспериментов авторы сразу собрали готовые воркфлоу под ComfyUI для каждого из базовых энкодеров.
Поделиться:
Фактурная книжная иллюстрация: гуашь и акрил в портфолио Светланы Братухиной →
Открытые модели Xiaomi MiMo V2.5: окно контекста 1M токенов и поддержка мультимодальности →