Google выпустила Gemini 3.1 Flash TTS — быструю модель для выразительного синтеза речи

Наконец-то генерация речи перестает звучать как диктор из нулевых! Google выкатила Gemini 3.1 Flash TTS — новую модель для синтеза голоса, которая делает ставку на живые интонации. Это не просто очередная читалка текста, а полноценный движок, способный передавать сложные эмоции без металлического звона.

Приставка Flash здесь означает жесткую оптимизацию под минимальную задержку. Модель уже разворачивают во всех основных продуктах компании. Раньше для получения настолько естественной речи приходилось поднимать тяжелые локальные нейросети или платить за дорогие сторонние сервисы. Теперь этот уровень выразительности становится базовым стандартом в экосистеме.

Для создателей контента и разработчиков интерфейсов это решает давнюю проблему. Быстрый и эмоциональный TTS позволяет делать голосовых ассистентов, с которыми приятно вести диалог. Остается дождаться расширенного доступа к API, чтобы интегрировать эти голоса в собственные проекты и интерактивные медиа.

Google выпустила Gemini 3.1 Flash TTS — быструю модель для выразительного синтеза речи

Ещё публикации

Google выпустила Gemini 3.1 Flash TTS — быструю модель для выразительного синтеза речи

Ещё публикации