Выпуск ERNIE 5.0: новые горизонты мультимодальности от Baidu

⚡️ Только что произошел официальный релиз ERNIE 5.0 от Baidu! Эта нативная omni-modal модель теперь способна не только понимать, но и генерировать текст, изображения и аудио – впечатляюще, правда? Ключевая особенность архитектуры – MoE на 2,4 трлн параметров, но, внимание, в каждом запросе активируется менее 3% из них. Это значит, что качество будет на уровне "больших" систем, но с более высокой эффективностью по стоимости и скорости.

Что же касается результатов на бенчмарках – тут всё просто бомбически! ERNIE-5.0 уверенно держится в топе по множеству метрик:

В текстовой области она почти наравне с GPT-5 (High) и Gemini-3-Pro, особенно выделяясь в задачах кодинга.
Понимание изображений тоже на высоте: результаты на STEM/VQA тестах поражают! ERNIE-5.0 не отстает от лидеров, таких как GPT-5 и Gemini-3-Pro.
В аудио тоже не подвела – в speech-to-text и audio understanding модель показывает конкурентоспособные результаты, близкие к топам на LibriSpeech и AISHELL.
А про генерацию изображений говорить можно долго. ERNIE-5.0 сравнивается с такими гигантами, как GPT-Image и Seedream, и отстаёт лишь на волосок, применяя выдающиеся качества в оценках Quality и Semantic.

Baidu делает акцент на “унифицированной мультимодальности” и, судя по всему, ERNIE 5.0 реально подтвердил свой статус в верхней лиге не только среди текстовых моделей, но и в визуальном и аудио контенте.

Чтобы попробовать ERNIE, можно заглянуть на сайт ERNIE Bot или воспользоваться Baidu AI Cloud Qianfan для бизнеса и разработчиков. Не пропустите шанс опробовать эту невероятную технологию!

Выпуск ERNIE 5.0: новые горизонты мультимодальности от Baidu

Ещё публикации