Все привыкли, что релизы от крупных корпораций — это тяжеловесные, медленные и максимально отцензурированные нейросети. Microsoft Lens ломает этот стереотип, предлагая опенсорсную text-to-image модель на 3.8B параметров с подозрительно быстрой генерацией. Заявлено эффективное обучение на датасете Lens-800M с плотными описаниями и разрешение до 1440×1440. Под капотом работает 48-блочный MMDiT с латентами от FLUX.2 и текстовым энкодером GPT-OSS на 20B.
Главный козырь проекта — скорость. Дистиллированная версия Lens-Turbo выдает готовый результат всего за 4 шага, пока базовая модель требует около 50. На абстрактных композициях, узорах и сложных концептах архитектура действительно показывает достойные результаты. Но на этом технические победы заканчиваются. Как только в промпте появляются люди, хваленый пайплайн начинает сыпаться, выдавая анатомические артефакты.
Правда, у модели обнаружилась крайне нетипичная для Microsoft черта — практически полное отсутствие цензуры. Компенсирует ли свобода промптинга неспособность нормально сгенерировать персонажей? Модель задумывалась как легкий фундамент для комьюнити, но пока выглядит скорее как сырой драфт, требующий серьезного дообучения.
Поделиться:
Локальная генерация на iPhone: как работает тернарная модель Bonsai Studio и в чем подвох →
CCPlugins: 24 команды для Claude Code CLI, заменяющие промпты про senior-инженера →