Qwen3.5-Omni: новый уровень многоформатного ИИ с поддержкой 113 языков и 256к контекстом

Модель Qwen3.5-Omni представляет собой последнюю версию омнимодального LLM, способного обрабатывать и генерировать информацию на основе текста, изображений, аудио и аудиовизуального контента. В основе лежит гибридная архитектура Hybrid-Attention MoE, которая обеспечивает эффективную работу как в режиме размышления, так и в диалоге.

Qwen3.5-Omni доступна в трёх версиях — Plus, Flash и Light — с поддержкой длинного контекста до 256 тысяч токенов. Особенностью является возможность обрабатывать свыше 10 часов аудио и более 400 секунд видео в качестве 720p с частотой 1 кадр в секунду. Модель обучалась на массивных данных: текстах, изображениях и более 100 миллионов часов аудиовизуального материала, что обеспечивает глубокое понимание и генерацию во всех поддерживаемых форматах.

Существенно улучшены мультиязычные возможности: распознавание речи поддерживается для 113 языков и диалектов, а генерация речи — для 36. По результатам тестов на 215 аудио- и аудиовизуальных задачах Qwen3.5-Omni-Plus превзошла Gemini-3.1 Pro в понимании, распознавании и диалогах, а её визуальные и текстовые функции сравнимы с Qwen3.5.

Отдельно стоит отметить продвинутую функцию аудио-визуального описания: модель создаёт детальные, структурированные и управляемые по стилю субтитры с точной сегментацией и временными метками, а также сценарные описания персонажей и их взаимодействий. Впервые реализована возможность программирования на основе аудио-визуальных инструкций (Audio-Visual Vibe Coding), что открывает новые сценарии использования.

В режиме реального времени модель поддерживает семантические прерывания для естественного диалога без помех, интеграцию с веб-поиском и расширенные функции вызова инструментов. Голосовое управление охватывает регулировку громкости, темпа и эмоций, а функция клонирования голоса позволяет персонализировать голос ассистента. Для повышения качества синтеза речи разработана технология ARIA, которая динамически выравнивает текст и аудио, снижая ошибки и улучшая естественность.

Доступ к функциям Qwen3.5-Om

Qwen3.5-Omni: новый уровень многоформатного ИИ с поддержкой 113 языков и 256к контекстом

Ещё публикации

Qwen3.5-Omni: новый уровень многоформатного ИИ с поддержкой 113 языков и 256к контекстом

Ещё публикации