Команда Inworld AI представила голосовую модель Realtime TTS-2, архитектура которой изначально рассчитана на двусторонний диалог, а не на линейный синтез текста. Предыдущая версия системы уже занимает первое место в рейтинге Artificial Analysis Speech Arena, обходя решения от OpenAI и ElevenLabs, при этом новый релиз смещает фокус на скорость отклика. Главное техническое отличие заключается в том, что нейросеть принимает на вход фактическое аудио предыдущих реплик пользователя, что позволяет ей автоматически подстраивать интонацию, темп и эмоциональную окраску под контекст текущей беседы.
Управление генерацией выстроено по принципу сценических ремарок. Разработчики могут передавать текстовые инструкции внутри квадратных скобок, например [speak tired but warm], а также расставлять невербальные маркеры вроде [sigh] или [laugh]. Модель интерпретирует эти теги как звуковые события, встраивая в речь естественные запинки, заполнения пауз и вздохи, которые алгоритм кластеризует в зависимости от заданного состояния персонажа. Синтезированный голос сохраняет единую идентичность и тембр при переключении между сотней языков, включая русский, что означает отсутствие необходимости собирать отдельные голосовые библиотеки для локализации.
В систему интегрирован инструмент Advanced Voice Design, который генерирует новые голоса на основе текстового промпта, описывающего возраст, характер и особенности звучания диктора. Модель доступна через Inworld API в статусе исследовательской версии с тремя режимами работы, позволяющими балансировать между вариативной экспрессивностью для интерактивных персонажей и предсказуемой консистентностью для автоматизированных систем поддержки.
Поделиться:
Factory обещает генерировать черновик продакшена по одному текстовому промпту →
Управляемый RAG в Gemini API: конец эпохи кастомных векторных баз? →