Принято считать, что полноценная генерация изображений — удел мощных облачных серверов с кластерами видеокарт. Однако стартап PrismML пытается доказать обратное, выпустив приложение Bonsai Studio, которое крутит диффузионную сеть локально на смартфоне. Никаких запросов к API, нулевой сбор данных и открытые веса под лицензией Apache 2.0.
Под капотом здесь работает Bonsai Image 4B — экстремально сжатая версия модели FLUX.2 Klein 4B. Разработчики применили тернарную квантизацию, урезав основной блок Diffusion Transformer всего до 1.2 гигабайт. Правда, текстовый энкодер так сильно сжать не вышло, поэтому общий вес комплекта составляет около 3.5 гигабайт. На актуальном мобильном железе система способна выдать картинку 512×512 примерно за 12 секунд.
Вопрос в том, какую цену разработчики заплатили за такую портативность? Для запуска потребуется минимум iPhone 15 Pro с 8 гигабайтами объединенной памяти, так что владельцы устройств предыдущих поколений остаются за бортом. Кроме того, жесткое урезание весов неизбежно бьет по качеству мелких деталей и точности понимания сложных промптов. Это любопытный технический прецедент в области экстремального сжатия нейросетей, но пока скорее локальная игрушка для гиков, чем рабочий инструмент дизайнера.
Поделиться:
CCPlugins: 24 команды для Claude Code CLI, заменяющие промпты про senior-инженера →
ИИ-фильм «Сицилимпилимбилия» взял первый приз на фестивале MyFilm48 в Каннах →