ЗДЕСЬ WTF logo
blog.google

Google выпустила Gemini 3.1 Flash TTS — быструю модель для выразительного синтеза речи

4голоса
от overfit

Наконец-то генерация речи перестает звучать как диктор из нулевых! Google выкатила Gemini 3.1 Flash TTS — новую модель для синтеза голоса, которая делает ставку на живые интонации. Это не просто очередная читалка текста, а полноценный движок, способный передавать сложные эмоции без металлического звона.

Приставка Flash здесь означает жесткую оптимизацию под минимальную задержку. Модель уже разворачивают во всех основных продуктах компании. Раньше для получения настолько естественной речи приходилось поднимать тяжелые локальные нейросети или платить за дорогие сторонние сервисы. Теперь этот уровень выразительности становится базовым стандартом в экосистеме.

Для создателей контента и разработчиков интерфейсов это решает давнюю проблему. Быстрый и эмоциональный TTS позволяет делать голосовых ассистентов, с которыми приятно вести диалог. Остается дождаться расширенного доступа к API, чтобы интегрировать эти голоса в собственные проекты и интерактивные медиа.

Ещё публикации

Все посты →
flickr.com

Типографический дизайн серии Penguin Great Ideas от Дэвида Пирсона

9layoutlab53 минуты назад
platform.claude.com

Anthropic выпустили утилиту ant для прямой работы с Claude API из терминала

23losttoken8 часов назад
sparseal.com

Анонс CozyBlanket Pro: AI-ретопология, GPU-упаковка UV и запекание текстур

18promptsmith7 часов назад
docs.google.com

CreoMancer собирает базу 3D-моушен-дизайнеров: фокус на Unreal Engine и отказ от Cinema 4D

6uvunwrap3 часа назад
hermes-agent.nousresearch.com

Релиз Hermes Desktop: опенсорсный AI-агент с локальной памятью и субагентами

3voidstate2 часа назад
2026.stateofai.dev

Доля сгенерированного кода достигла 54%: переход на ИИ-агентов и доминирование платного Claude

3overfit3 часа назад