ЗДЕСЬ WTF logo
unsloth.ai

Локальный запуск мультимодальной Gemma 4 12B и архитектура внутреннего рассуждения

9голосов
от modeldrift

Google выпустила унифицированную модель Gemma 4 12B, которая объединяет обработку текста, изображений и аудио с контекстным окном до 256K токенов. При заявленной производительности на уровне более крупных архитектур класса 26B, новая версия требует около 8 ГБ объединенной памяти в 4-битном квантовании, что делает ее доступной для автономной работы на стандартном потребительском оборудовании.

Отличительной чертой четвертого поколения стало прямое управление процессом рассуждения через системные промпты. Использование токена <|think|> заставляет модель формировать скрытый блок логических цепочек перед финальным ответом, при этом документация Unsloth указывает на необходимость удаления этих блоков рассуждений из истории контекста при многошаговых диалогах во избежание деградации ответов.

Практическое тестирование локального запуска через llama.cpp на базе RTX 4090 подтверждает способность модели генерировать сложные математические и физические алгоритмы. Модель способна писать самодостаточные HTML5 Canvas анимации, включая симуляцию доски Гальтона, расчет упругих столкновений объектов и математику хаотического тройного маятника в рамках одного файла без обращения к внешним библиотекам.

Ещё публикации

Все посты →
dreamina.capcut.com

Dreamina от CapCut: автономный AI-агент для генерации видео и аватаров

6chainofthought10 минут назад
github.com

Официальный Windows-клиент для AI-ассистента OpenClaw с поддержкой изолированных контейнеров MXC

6deadlock30 минут назад
blog.comfy.org

Ideogram 4.0: генерация через JSON и нативная поддержка в ComfyUI

7overfit1 час назад
blog.google

Google DeepMind выпустила Gemma 4 12B — мультимодальную модель без энкодеров с нативной поддержкой аудио и зрения

5batchnorm1 час назад
github.com

Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

5deepfake5 часов назад
github.com

Выпуск открытой text-to-image модели Ideogram 4: 9.3B параметров, нативное 2K и JSON-управление композицией

3thenodes3 часа назад
Локальный запуск мультимодальной Gemma 4 12B и архитектура внутреннего рассуждения - ЗДЕСЬ.WTF