Gemini Omni: почему мультимодальный ответ Google пока выглядит как дорогая игрушка

Все говорят, что Google окончательно отобрал у OpenAI звание народного искусственного интеллекта. Цифры с последней презентации действительно давят массой: обработка 3.2 квадриллионов токенов в месяц и планируемые затраты на инфраструктуру под 190 миллиардов долларов. Главным козырем в этой гонке стал анонс Gemini Omni — нативной мультимодальной модели для генерации и редактирования видео через естественный диалог. Задумка звучит амбициозно, но к реализации есть вопросы.

Разработчики заявляют, что нейросеть понимает физику жидкостей, гравитацию и сохраняет консистентность объектов при многоитерационном редактировании. Пользователь может загрузить референсный ролик, наложить аудио и попросить текстом превратить сцену в пластилиновую анимацию. Правда, на старте доступна только облегченная версия Gemini Omni Flash. Аудио-входы работают с жесткими ограничениями, а генерация речи и вовсе заперта внутри функции цифровых аватаров. Корпорация снова перестраховывается, встраивая везде невидимые водяные знаки SynthID и привычно ссылаясь на политику безопасности.

Кому именно нужен такой пайплайн в текущем виде? Сейчас доступ к модели раздают платным подписчикам и авторам YouTube Shorts, явно целясь в сегмент быстрых контент-мейкеров. Пока Omni больше напоминает дорогую технологическую демку, развернутую на серверах за сотни миллиардов, а не замену профессиональному софту. Доступ к API откроют в ближайшие недели, и только тогда станет ясно, насколько эта архитектура применима в реальных рабочих задачах.

Gemini Omni: почему мультимодальный ответ Google пока выглядит как дорогая игрушка

Ещё публикации

Gemini Omni: почему мультимодальный ответ Google пока выглядит как дорогая игрушка

Ещё публикации