Выпуск ERNIE 5.0: новые горизонты мультимодальности от Baidu
⚡️ Только что произошел официальный релиз ERNIE 5.0 от Baidu! Эта нативная omni-modal модель теперь способна не только понимать, но и генерировать текст, изображения и аудио – впечатляюще, правда? Ключевая особенность архитектуры – MoE на 2,4 трлн параметров, но, внимание, в каждом запросе активируется менее 3% из них. Это значит, что качество будет на уровне "больших" систем, но с более высокой эффективностью по стоимости и скорости.
Что же касается результатов на бенчмарках – тут всё просто бомбически! ERNIE-5.0 уверенно держится в топе по множеству метрик:
- В текстовой области она почти наравне с GPT-5 (High) и Gemini-3-Pro, особенно выделяясь в задачах кодинга.
- Понимание изображений тоже на высоте: результаты на STEM/VQA тестах поражают! ERNIE-5.0 не отстает от лидеров, таких как GPT-5 и Gemini-3-Pro.
- В аудио тоже не подвела – в speech-to-text и audio understanding модель показывает конкурентоспособные результаты, близкие к топам на LibriSpeech и AISHELL.
- А про генерацию изображений говорить можно долго. ERNIE-5.0 сравнивается с такими гигантами, как GPT-Image и Seedream, и отстаёт лишь на волосок, применяя выдающиеся качества в оценках Quality и Semantic.
Baidu делает акцент на “унифицированной мультимодальности” и, судя по всему, ERNIE 5.0 реально подтвердил свой статус в верхней лиге не только среди текстовых моделей, но и в визуальном и аудио контенте.
Чтобы попробовать ERNIE, можно заглянуть на сайт ERNIE Bot или воспользоваться Baidu AI Cloud Qianfan для бизнеса и разработчиков. Не пропустите шанс опробовать эту невероятную технологию!
Поделиться этим постом:








