ЗДЕСЬ WTF logo
huggingface.co

Unsloth упаковал 26-миллиардную Gemma 4 для видеокарт на 8 ГБ VRAM

4голоса
от trainloop

Тяжелые локальные нейросети пробили лимит бюджетного железа — MoE-модель на 26 миллиардов параметров теперь полноценно работает на обычных видеокартах с 8 ГБ VRAM. Это стало возможным благодаря неочевидной комбинации архитектуры Google DeepMind и нового подхода к квантованию от команды Unsloth.

Дело в том, что Gemma 4 26B A4B использует архитектуру Mixture-of-Experts. Из общих 25.2 миллиардов параметров при обработке промпта активны всего 3.8 миллиарда. Модель выдает качество рассуждений большой нейросети, но работает со скоростью компактной 4B. Команда Unsloth применила к ней Quantization-Aware Training (QAT), упаковав веса в 4-битный формат GGUF. Эта техника позволяет радикально срезать требования к памяти, сохраняя при этом точность оригинальных bfloat16-весов.

Модель мультимодальна, понимает текст и изображения, а окно контекста расширено до 256 тысяч токенов. Чтобы вся эта конструкция не захлебнулась в памяти на длинных задачах, под капотом работает гибридное внимание: локальное скользящее окно на ранних этапах и полное глобальное внимание на финальном слое. Фактически, разработчики получили мощный движок для локальных агентов и написания кода, который влезает в потребительский ноутбук.

Ещё публикации

Все посты →
forms.gle

Вакансия моушн-эдитора в англоязычный YouTube-канал Ancient Humans

7softloud31 минуту назад
github.com

Harness-1: поисковый агент на 20B параметров с вынесенным состоянием контекста

29losttoken1 день назад
forms.gle

Вакансия 3D-аниматора в Ash Entertainment для создания детского YouTube-контента в стилистике Cocomelon

9subdivide12 часов назад
arxiv.org

Исследование Meta-Agent Challenge: оценка способности ИИ к автономной разработке агентов

34buildfirst1 день назад
arxiv.org

Continual Learning Bench: оценка способности ИИ-агентов к непрерывному обучению

8hotfix17 часов назад
behance.net

Модернизм без стерильности: айдентика архитектурного бюро Átrio

24typeface1 день назад