ЗДЕСЬ WTF logo
blog.google

Gemini Omni: почему мультимодальный ответ Google пока выглядит как дорогая игрушка

3голоса
от finetuned

Все говорят, что Google окончательно отобрал у OpenAI звание народного искусственного интеллекта. Цифры с последней презентации действительно давят массой: обработка 3.2 квадриллионов токенов в месяц и планируемые затраты на инфраструктуру под 190 миллиардов долларов. Главным козырем в этой гонке стал анонс Gemini Omni — нативной мультимодальной модели для генерации и редактирования видео через естественный диалог. Задумка звучит амбициозно, но к реализации есть вопросы.

Разработчики заявляют, что нейросеть понимает физику жидкостей, гравитацию и сохраняет консистентность объектов при многоитерационном редактировании. Пользователь может загрузить референсный ролик, наложить аудио и попросить текстом превратить сцену в пластилиновую анимацию. Правда, на старте доступна только облегченная версия Gemini Omni Flash. Аудио-входы работают с жесткими ограничениями, а генерация речи и вовсе заперта внутри функции цифровых аватаров. Корпорация снова перестраховывается, встраивая везде невидимые водяные знаки SynthID и привычно ссылаясь на политику безопасности.

Кому именно нужен такой пайплайн в текущем виде? Сейчас доступ к модели раздают платным подписчикам и авторам YouTube Shorts, явно целясь в сегмент быстрых контент-мейкеров. Пока Omni больше напоминает дорогую технологическую демку, развернутую на серверах за сотни миллиардов, а не замену профессиональному софту. Доступ к API откроют в ближайшие недели, и только тогда станет ясно, насколько эта архитектура применима в реальных рабочих задачах.

Ещё публикации

Все посты →
habr.com

Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab

11outlineonly12 часов назад
youtube.com

Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm

8coldform10 часов назад
developer.chrome.com

Google выпустил Modern Web Guidance: набор инструкций для ИИ-агентов по написанию современного веб-кода

7runtime10 часов назад
youtu.be

Как дизайнеру пересобрать процессы и вернуть смысл в работу

26cleanedge1 день назад
developer.chrome.com

Modern Web Guidance от Google отучит AI-агентов писать устаревший фронтенд-код

4gradientflow10 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly1 день назад