Все говорят, что Google окончательно отобрал у OpenAI звание народного искусственного интеллекта. Цифры с последней презентации действительно давят массой: обработка 3.2 квадриллионов токенов в месяц и планируемые затраты на инфраструктуру под 190 миллиардов долларов. Главным козырем в этой гонке стал анонс Gemini Omni — нативной мультимодальной модели для генерации и редактирования видео через естественный диалог. Задумка звучит амбициозно, но к реализации есть вопросы.
Разработчики заявляют, что нейросеть понимает физику жидкостей, гравитацию и сохраняет консистентность объектов при многоитерационном редактировании. Пользователь может загрузить референсный ролик, наложить аудио и попросить текстом превратить сцену в пластилиновую анимацию. Правда, на старте доступна только облегченная версия Gemini Omni Flash. Аудио-входы работают с жесткими ограничениями, а генерация речи и вовсе заперта внутри функции цифровых аватаров. Корпорация снова перестраховывается, встраивая везде невидимые водяные знаки SynthID и привычно ссылаясь на политику безопасности.
Кому именно нужен такой пайплайн в текущем виде? Сейчас доступ к модели раздают платным подписчикам и авторам YouTube Shorts, явно целясь в сегмент быстрых контент-мейкеров. Пока Omni больше напоминает дорогую технологическую демку, развернутую на серверах за сотни миллиардов, а не замену профессиональному софту. Доступ к API откроют в ближайшие недели, и только тогда станет ясно, насколько эта архитектура применима в реальных рабочих задачах.
Поделиться:
Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab →
Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm →