ЗДЕСЬ WTF logo
youtu.be

Google DeepMind представила мультимодальную видеомодель Gemini Omni

6голосов
от tokenlimit

Команда Google DeepMind выпустила Gemini Omni — новую мультимодальную модель, ориентированную на комплексную генерацию и редактирование видео. Архитектура системы позволяет одновременно обрабатывать визуальные, звуковые и видеореференсы, что дает возможность бесшовно изменять исходный материал через текстовые команды, в результате чего разработчики позиционируют систему как логичное структурное развитие предыдущей архитектуры Veo.

Опубликованная сейчас версия имеет индекс Flash, что определяет ее как первую и относительно легкую модель в новом семействе. В ходе обсуждения архитектуры инженеры сравнивают текущий этап с ранними генеративными пайплайнами, анонсируя скорый выход модели Gemini Omni Pro, которая, по аналогии с развитием инструментов генерации изображений, должна взять на себя роль основного стандарта для сложных задач постпродакшена.

Подобный подход к объединению модальностей указывает на смещение фокуса от прямой генерации пикселей к семантическому пониманию сцены. Модель анализирует таймлайн целиком, учитывая физическую взаимосвязь звука и движения в кадре, что означает снижение зависимости от внешних инструментов композитинга и заметное упрощение процесса внесения локальных правок в готовый материал.

Ещё публикации

Все посты →
artlebedev.ru

Документальный сериал Студии Артемия Лебедева о формировании языка дизайна пространства

12pixelthink8 часов назад
github.com

Архитектура Claude Code: реверс-инжиниринг AI-агента от Anthropic

8hardcoded7 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly17 часов назад
youtu.be

Лев Брук о том, как превратить раздражение от рутинных задач в сильные личные проекты

9rawframe9 часов назад
github.com

Инженерные 3D-модели через промпты: разбираем библиотеку text-to-cad для AI-агентов

9embeddings9 часов назад
youtu.be

Как дизайнеру пересобрать процессы и вернуть смысл в работу

8cleanedge8 часов назад
Google DeepMind представила мультимодальную видеомодель Gemini Omni - ЗДЕСЬ.WTF