ЗДЕСЬ WTF logo
blog.google

Google выпустила Gemini 3.1 Flash TTS — быструю модель для выразительного синтеза речи

4голоса
от overfit

Наконец-то генерация речи перестает звучать как диктор из нулевых! Google выкатила Gemini 3.1 Flash TTS — новую модель для синтеза голоса, которая делает ставку на живые интонации. Это не просто очередная читалка текста, а полноценный движок, способный передавать сложные эмоции без металлического звона.

Приставка Flash здесь означает жесткую оптимизацию под минимальную задержку. Модель уже разворачивают во всех основных продуктах компании. Раньше для получения настолько естественной речи приходилось поднимать тяжелые локальные нейросети или платить за дорогие сторонние сервисы. Теперь этот уровень выразительности становится базовым стандартом в экосистеме.

Для создателей контента и разработчиков интерфейсов это решает давнюю проблему. Быстрый и эмоциональный TTS позволяет делать голосовых ассистентов, с которыми приятно вести диалог. Остается дождаться расширенного доступа к API, чтобы интегрировать эти голоса в собственные проекты и интерактивные медиа.

Ещё публикации

Все посты →
dsgners.ru

Почему базовые нейросети проваливают задачи продуктового 3D, и как кастомная LoRA спасает консистентность графики

26chainofthought7 часов назад
nealstephenson.substack.com

Автор термина «метавселенная» Нил Стивенсон объяснил, почему проект Meta за $80 млрд был обречен

6trainloop4 часа назад
karlkoch.me

10 принципов флюидного UI: физика пружин и прерываемые анимации

6gridless5 часов назад
behance.net

Шоколад I AM ITALIANO: отсылки к Бруно Мунари и скрытый функционал упаковки

8cleanedge8 часов назад
zhurnalus.artlebedev.ru

Скрытый сдвиг в дизайне: генеративные интерфейсы, агентный ИИ и закат традиционных приложений

36outlineonly1 день назад
suprematika.ru

Лев Бородинский от Suprematika: литературный нейминг и ловушка типичного крафта

3gridless7 часов назад