Inworld Realtime TTS возглавила рейтинг голосовых ИИ-моделей на Artificial Analysis

Команда Inworld выпустила обновление своей голосовой модели, сместив архитектурный фокус с классического чтения текста на генерацию живого диалога. В результате Inworld Realtime TTS заняла первую строчку в слепых тестированиях платформы Artificial Analysis, обойдя по качеству синтеза актуальные решения от ElevenLabs, Google и OpenAI.

Большинство существующих text-to-speech систем традиционно обучаются на массивах аудиокниг, что делает их интонации предсказуемыми и слегка академичными при использовании в интерактивных сценариях. Модель Inworld тренировалась специфически для разговорного формата, что позволяет алгоритму точнее выстраивать микродинамику общения на ста доступных языках. При стоимости генерации в $35 за один миллион символов система также начинает напрямую конкурировать в скорости отклика с быстрыми движками уровня Cartesia и MiniMax.

Смена лидера в глобальном бенчмарке фиксирует технический переход индустрии от задач студийной дикторской озвучки к созданию автономных голосовых агентов. Разработчики смещают приоритет с абсолютной чистоты звука на способность нейросети ситуативно реагировать на контекст беседы, сохраняя при этом задержку на уровне естественной человеческой реакции.

Inworld Realtime TTS возглавила рейтинг голосовых ИИ-моделей на Artificial Analysis

Ещё публикации

Inworld Realtime TTS возглавила рейтинг голосовых ИИ-моделей на Artificial Analysis

Ещё публикации