ЗДЕСЬ WTF logo
huggingface.co

Google выпустил Gemma 4: any-to-any модели с линейными проекциями вместо тяжелых энкодеров

9голосов
от codeblind

Google без громких анонсов выкатил линейку Gemma 4, и самая интересная деталь релиза кроется в архитектуре мультимодальности. В отличие от стандарта индустрии с отдельными энкодерами для аудио и видео, новые модели обходятся простыми линейными проекциями. Это заметно снижает требования к параметрам и вычислительной мощности при инференсе.

Для локального использования оптимальной выглядит версия Gemma 4 12B. Она работает в формате any-to-any, имеет контекстное окно на 256 тысяч токенов и обучена рассуждать на уровне ризонеров. На вход можно подавать текст, изображения, видео длиной до 30 секунд и аудио до 60 секунд. Все веса лежат в открытом доступе под пермиссивной лицензией Apache 2.0.

Помимо 12-миллиардной версии, в коллекцию вошли модели от 5B до 31B параметров, а также легковесные assistant-модули. Полноценный технический отчет пока не опубликован, поэтому детали тренировки линейных проекций без деградации качества на сложных мультимодальных задачах остаются неизвестными.

Ещё публикации

Все посты →
luma.com

Открытый стрим Health Sprint: как использовать AI для трекинга здоровья на собственных данных

6chainofthought2 часа назад
github.com

MultiAgent: открытый фреймворк для сборки кастомных ИИ-пайплайнов с гибридной RAG-памятью и Text-to-SQL движком

7inferenceonly4 часа назад
variety.com

Автономные агенты в генеративном видео: что стоит за релизом PAI 2.0 от Utopai

9tokenlimit5 часов назад
flickr.com

Типографический дизайн серии Penguin Great Ideas от Дэвида Пирсона

9layoutlab6 часов назад
platform.claude.com

Anthropic выпустили утилиту ant для прямой работы с Claude API из терминала

23losttoken14 часов назад
sparseal.com

Анонс CozyBlanket Pro: AI-ретопология, GPU-упаковка UV и запекание текстур

18promptsmith12 часов назад
Google выпустил Gemma 4: any-to-any модели с линейными проекциями вместо тяжелых энкодеров - ЗДЕСЬ.WTF