Команда Inworld выпустила обновление своей голосовой модели, сместив архитектурный фокус с классического чтения текста на генерацию живого диалога. В результате Inworld Realtime TTS заняла первую строчку в слепых тестированиях платформы Artificial Analysis, обойдя по качеству синтеза актуальные решения от ElevenLabs, Google и OpenAI.
Большинство существующих text-to-speech систем традиционно обучаются на массивах аудиокниг, что делает их интонации предсказуемыми и слегка академичными при использовании в интерактивных сценариях. Модель Inworld тренировалась специфически для разговорного формата, что позволяет алгоритму точнее выстраивать микродинамику общения на ста доступных языках. При стоимости генерации в $35 за один миллион символов система также начинает напрямую конкурировать в скорости отклика с быстрыми движками уровня Cartesia и MiniMax.
Смена лидера в глобальном бенчмарке фиксирует технический переход индустрии от задач студийной дикторской озвучки к созданию автономных голосовых агентов. Разработчики смещают приоритет с абсолютной чистоты звука на способность нейросети ситуативно реагировать на контекст беседы, сохраняя при этом задержку на уровне естественной человеческой реакции.
Поделиться:
Inworld AI выпустила голосовую модель Realtime TTS-2 с контекстным анализом аудио и текстовым управлением интонацией →
Концептуальная книга о верстке кассовых чеков от Софьи Гороховой →