Google заявляет, что их новая модель Gemma 4 12B выдает производительность на уровне тяжеловесов класса 26B. Цифры в бенчмарках выглядят пугающе хорошо для такого размера, но так ли это работает на практике?
Главная техническая особенность релиза — отказ от отдельных энкодеров для зрения и звука. В версии 12B Unified сырые данные проецируются напрямую в пространство эмбеддингов через легкие линейные слои. Теоретически это должно снижать задержку при мультимодальных запросах и упрощать файн-тюнинг. Но архитектурная элегантность редко гарантирует отсутствие галлюцинаций в сложном коде.
В локальных тестах на RTX 4090 модель столкнули с задачей написать самодостаточную HTML5 Canvas анимацию с реальной физикой без сторонних библиотек. Сценарии включали симуляцию доски Гальтона, столкновение блоков с отскоком и хаотический тройной маятник. Правда, высокие оценки в лидербордах часто не отражают способность сети удерживать контекст при отладке сложной математики в браузере. Вопрос в том, насколько быстро эта 12-миллиардная архитектура начнет терять нить рассуждений при попытке объединить все симуляции в один рабочий проект.
Поделиться:
Dreamina от CapCut: автономный AI-агент для генерации видео и аватаров →
Официальный Windows-клиент для AI-ассистента OpenClaw с поддержкой изолированных контейнеров MXC →