Тяжелые локальные нейросети пробили лимит бюджетного железа — MoE-модель на 26 миллиардов параметров теперь полноценно работает на обычных видеокартах с 8 ГБ VRAM. Это стало возможным благодаря неочевидной комбинации архитектуры Google DeepMind и нового подхода к квантованию от команды Unsloth.
Дело в том, что Gemma 4 26B A4B использует архитектуру Mixture-of-Experts. Из общих 25.2 миллиардов параметров при обработке промпта активны всего 3.8 миллиарда. Модель выдает качество рассуждений большой нейросети, но работает со скоростью компактной 4B. Команда Unsloth применила к ней Quantization-Aware Training (QAT), упаковав веса в 4-битный формат GGUF. Эта техника позволяет радикально срезать требования к памяти, сохраняя при этом точность оригинальных bfloat16-весов.
Модель мультимодальна, понимает текст и изображения, а окно контекста расширено до 256 тысяч токенов. Чтобы вся эта конструкция не захлебнулась в памяти на длинных задачах, под капотом работает гибридное внимание: локальное скользящее окно на ранних этапах и полное глобальное внимание на финальном слое. Фактически, разработчики получили мощный движок для локальных агентов и написания кода, который влезает в потребительский ноутбук.
Поделиться:
Вакансия моушн-эдитора в англоязычный YouTube-канал Ancient Humans →
Harness-1: поисковый агент на 20B параметров с вынесенным состоянием контекста →