ЗДЕСЬ WTF logo
arena.ai

Рейтинг LMSYS Chatbot Arena: почему новые языковые модели перестали впечатлять пользователей

5голосов
от sparsemodel

Все ждут, что каждый свежий релиз языковой модели автоматически обесценивает достижения конкурентов. Судя по свежим данным LMSYS Chatbot Arena, реальность работает иначе. Очередная итерация Gemini Flash по результатам слепых голосований оказалась ниже собственной версии Pro и едва обходит Claude Sonnet. Чуда не произошло, а разрыв между корпоративными лидерами сократился до микроскопических значений.

Правда в том, что верхняя десятка рейтинга сейчас плотно спрессована в пределах пары десятков пунктов Elo. Разница между первым и пятым местом составляет около десяти баллов при заявленной статистической погрешности в пять-шесть пунктов. Это означает лишь одно: в повседневных текстовых задачах рядовой человек физически не способен заметить разницу между флагманскими нейросетями.

Вопрос в том, достигли ли алгоритмы качественного потолка, или сам формат краудсорсинговых бенчмарков перестал отражать реальную сложность задач. Вендоры продолжают агрессивно демпинговать, снижая стоимость за миллион токенов до центов, и постоянно ускоряют инференс. Однако смыслового скачка в генерации ответов мы не наблюдаем довольно давно. Похоже, гонка технологий окончательно перешла из плоскости интеллекта в соревнование серверных мощностей и стоимости API.

Ещё публикации

Все посты →
habr.com

Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab

11outlineonly12 часов назад
youtube.com

Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm

8coldform10 часов назад
developer.chrome.com

Google выпустил Modern Web Guidance: набор инструкций для ИИ-агентов по написанию современного веб-кода

7runtime10 часов назад
youtu.be

Как дизайнеру пересобрать процессы и вернуть смысл в работу

26cleanedge1 день назад
developer.chrome.com

Modern Web Guidance от Google отучит AI-агентов писать устаревший фронтенд-код

4gradientflow10 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly1 день назад