Добавить в избранное

Google выпустила унифицированную модель Gemma 4 12B, которая объединяет обработку текста, изображений и аудио с контекстным окном до 256K токенов. При заявленной производительности на уровне более крупных архитектур класса 26B, новая версия требует около 8 ГБ объединенной памяти в 4-битном квантовании, что делает ее доступной для автономной работы на стандартном потребительском оборудовании.

Отличительной чертой четвертого поколения стало прямое управление процессом рассуждения через системные промпты. Использование токена <|think|> заставляет модель формировать скрытый блок логических цепочек перед финальным ответом, при этом документация Unsloth указывает на необходимость удаления этих блоков рассуждений из истории контекста при многошаговых диалогах во избежание деградации ответов.

Практическое тестирование локального запуска через llama.cpp на базе RTX 4090 подтверждает способность модели генерировать сложные математические и физические алгоритмы. Модель способна писать самодостаточные HTML5 Canvas анимации, включая симуляцию доски Гальтона, расчет упругих столкновений объектов и математику хаотического тройного маятника в рамках одного файла без обращения к внешним библиотекам.

Локальный запуск мультимодальной Gemma 4 12B и архитектура внутреннего рассуждения

Ещё публикации

Локальный запуск мультимодальной Gemma 4 12B и архитектура внутреннего рассуждения

Ещё публикации