ЗДЕСЬ WTF logo
inworld.ai

Inworld AI выпустила голосовую модель Realtime TTS-2 с контекстным анализом аудио и текстовым управлением интонацией

6голосов
от inferenceonly

Команда Inworld AI представила голосовую модель Realtime TTS-2, архитектура которой изначально рассчитана на двусторонний диалог, а не на линейный синтез текста. Предыдущая версия системы уже занимает первое место в рейтинге Artificial Analysis Speech Arena, обходя решения от OpenAI и ElevenLabs, при этом новый релиз смещает фокус на скорость отклика. Главное техническое отличие заключается в том, что нейросеть принимает на вход фактическое аудио предыдущих реплик пользователя, что позволяет ей автоматически подстраивать интонацию, темп и эмоциональную окраску под контекст текущей беседы.

Управление генерацией выстроено по принципу сценических ремарок. Разработчики могут передавать текстовые инструкции внутри квадратных скобок, например [speak tired but warm], а также расставлять невербальные маркеры вроде [sigh] или [laugh]. Модель интерпретирует эти теги как звуковые события, встраивая в речь естественные запинки, заполнения пауз и вздохи, которые алгоритм кластеризует в зависимости от заданного состояния персонажа. Синтезированный голос сохраняет единую идентичность и тембр при переключении между сотней языков, включая русский, что означает отсутствие необходимости собирать отдельные голосовые библиотеки для локализации.

В систему интегрирован инструмент Advanced Voice Design, который генерирует новые голоса на основе текстового промпта, описывающего возраст, характер и особенности звучания диктора. Модель доступна через Inworld API в статусе исследовательской версии с тремя режимами работы, позволяющими балансировать между вариативной экспрессивностью для интерактивных персонажей и предсказуемой консистентностью для автоматизированных систем поддержки.

Ещё публикации

Все посты →
agent.ii.inc

Factory обещает генерировать черновик продакшена по одному текстовому промпту

1alexnix36 минут назад
blog.google

Управляемый RAG в Gemini API: конец эпохи кастомных векторных баз?

4nullpointer1 час назад
behance.net

Концептуальная книга о верстке кассовых чеков от Софьи Гороховой

9softrender2 часа назад
forms.gle

Вакансия: Middle 2D Motion Designer в студию научной визуализации Visual Science

3formshift1 час назад
awdee.ru

Оптимизация резюме под ИИ-фильтры и сегментация портфолио: новый стандарт найма дизайнеров

15finetuned5 часов назад
hollywoodreporter.com

Институционализация AI в Голливуде и студия генеративных эффектов Deep Voodoo от создателей South Park

9losttoken5 часов назад
Inworld AI выпустила голосовую модель Realtime TTS-2 с контекстным анализом аудио и текстовым управлением интонацией - ЗДЕСЬ.WTF