Все привыкли думать, что для создания автономного AI-агента достаточно скормить языковой модели видеопоток с камеры. На деле большинство таких систем теряется при малейшем изменении освещения или нестандартном физическом препятствии.
Исследователи выкатили SimWorld — открытую песочницу на базе Unreal Engine 5, заточенную специально под тестирование VLM и LLM. Раньше подобные среды собирали преимущественно на Unity и строго для автономных автомобилей. Здесь же архитектура расширена под любые задачи пространственного и социального понимания: агенты получают RGB-кадры, карты глубины и сегментацию, чтобы учиться навигации в процедурно сгенерированных городах. Взаимодействие идет через привычные gym-подобные API на Python, а под капотом работает локальный планировщик действий.
Задумка перенести обучение в реалистичную среду выглядит логично. Но трехуровневая архитектура с тяжелым игровым движком неизбежно ударит по вычислительным ресурсам. Одно дело обучать алгоритмы в абстрактных векторных сетках, и совсем другое — рендерить честную физику, трафик и пешеходов для десятков параллельных сессий. Правда, классическую проблему sim-to-real разрыва детализированные текстуры сами по себе не решают. Вопрос в том, оправдает ли качество симуляции те серверные мощности, которые потребуются командам для полноценного тестирования.
Поделиться:
Грег Айзенберг выпустил подробный гайд по локальным AI-агентам в Hermes Desktop →
Свобода или рутина: что скрывается за многолетними сериями плакатов →