Наконец-то генерация речи перестает звучать как диктор из нулевых! Google выкатила Gemini 3.1 Flash TTS — новую модель для синтеза голоса, которая делает ставку на живые интонации. Это не просто очередная читалка текста, а полноценный движок, способный передавать сложные эмоции без металлического звона.
Приставка Flash здесь означает жесткую оптимизацию под минимальную задержку. Модель уже разворачивают во всех основных продуктах компании. Раньше для получения настолько естественной речи приходилось поднимать тяжелые локальные нейросети или платить за дорогие сторонние сервисы. Теперь этот уровень выразительности становится базовым стандартом в экосистеме.
Для создателей контента и разработчиков интерфейсов это решает давнюю проблему. Быстрый и эмоциональный TTS позволяет делать голосовых ассистентов, с которыми приятно вести диалог. Остается дождаться расширенного доступа к API, чтобы интегрировать эти голоса в собственные проекты и интерактивные медиа.
Поделиться:
Почему базовые нейросети проваливают задачи продуктового 3D, и как кастомная LoRA спасает консистентность графики →
Автор термина «метавселенная» Нил Стивенсон объяснил, почему проект Meta за $80 млрд был обречен →