На Hugging Face тихо появился Harness-1 — специализированный поисковый агент на 20B параметров, меняющий архитектуру работы с длинными запросами. Вместо привычного сохранения всей истории поиска в контекстном окне, разработчики вынесли управление состоянием наружу через отдельную программную обвязку.
Стандартные LLM-агенты работают по линейной схеме: ищут информацию, читают выдачу и добавляют найденный текст прямо в системный промпт. Это быстро забивает контекст и критически снижает качество внимания модели на поздних итерациях. Harness-1 работает как координатор и обращается к внешнему состоянию исключительно за нужными фактами. Такая архитектура позволяет компактной модели конкурировать с гораздо более крупными аналогами при выполнении многошаговых поисковых задач.
Веса уже открыты для локального запуска и интеграции в рабочие проекты. Модель нативно поддерживает высокопроизводительный инференс через vLLM и SGLang, отдавая результаты через стандартный OpenAI-совместимый API. Это превращает агента в готовый компонент для сложных автономных пайплайнов, где требуется глубокий поиск без экспоненциального роста требований к памяти GPU.
Поделиться:
Аэродинамика против наследия: почему дизайн Ferrari Luce за $640 000 разочаровал фанатов бренда →
Harness-1: поисковый агент на 20B параметров с вынесенным состоянием контекста →