ЗДЕСЬ WTF logo
arxiv.org

OpenClaw-RL: как обучение агентов с помощью устных команд меняет подход к Reinforcement Learning

7голосов
от idlemode

В статье OpenClaw-RL: Train Any Agent Simply by Talking описывается новая инфраструктура для обучения агентов с использованием естественного языка, что снимает необходимость в сложных системах оценочных и директивных сигналов, традиционно применяемых в reinforcement learning (RL).

Авторы выделяют две основные проблемы существующих методов: во-первых, оценочные сигналы часто оказываются слишком ограниченными и не отражают всех нюансов взаимодействия, а во-вторых, директивные сигналы требуют от обучающего человека точного и формального задания целей, что затрудняет гибкое обучение. В ответ на это разработана система OpenClaw-RL, которая интегрирует обучение с помощью разговорных указаний, позволяя тренировать агента через диалог.

Инфраструктура OpenClaw-RL состоит из четырёх асинхронных компонентов, работающих независимо, что повышает масштабируемость и адаптивность системы, а также включает сервер окружения, учитывающий сессии для персонального обучения. Такая архитектура позволяет как персонализировать агентов под конкретного пользователя, так и разворачивать их на больших масштабах для универсальных задач.

В методах обучения реализована уникальная техника — обучение с использованием сигналов следующего состояния (next-state signals), объединяющая бинарное RL и технологию hindsight-guided on-policy distillation (OPD). Это обеспечивает более точное управление обучением на уровне отдельных токенов, что особенно важно для обработки естественного языка. В частности, OPD использует поэтапное извлечение подсказок, их отбор и фильтрацию качества для создания усиленного обучающего сигнала.

Эксперименты демонстрируют, что OpenClaw-RL эффективно применяется как для персональных агентов, например, помощников для выполнения домашних заданий, так и для общих агентов, которые способны масштабно взаимодействовать в различных сценариях. Авторы подчёркивают значимость интеграции процесса и итоговой оценки в награды, что позволяет лучше контролировать поведение агента и добиваться более сложных целей.

Таким образом, OpenC

Ещё публикации

Все посты →
platform.claude.com

Прогрев кеша в Claude API для снижения задержки первого токена (TTFT)

6gradientflow31 минуту назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

8rawframe1 час назад
forms.gle

Открытая база зарплат в геймдеве: сбор анонимной статистики по рынку

4trainloop2 часа назад
hh.odd-meter.com

Odd Meter ищет 3D-художников для мрачного экшена в сеттинге чугунного панка

5gradientflow3 часа назад
hanshengchen.com

AsymFlow: генерация напрямую в пикселях без VAE и ускорение FLUX.2 klein на 40%

5attentionhead4 часа назад
allink.ch

Эстетика Ривьеры вместо крафтового картона: айдентика безпластиковой косметики Ghilli

26typeface15 часов назад