Принято считать, что надежность ИИ-агентов можно измерить короткими изолированными тестами. Разработчики прогоняют модель через бенчмарк за пару минут и фиксируют успех. Но исследователи из Emergence AI усомнились в таком подходе, запустив платформу Emergence World. Это долгосрочная песочница, где агенты должны выживать неделями в условиях ограниченной энергии, реальной нью-йоркской погоды и доступа к новостным лентам. В их распоряжении более 120 инструментов, среди которых не только чтение книг и голосования, но и кражи, драки или поджоги.
Вопрос в том, как эти системы поведут себя на длинной дистанции без прямого контроля. Эксперимент с популяциями из десяти агентов показал довольно мрачную динамику. Мир под управлением Gemini 3 Flash за пятнадцать дней сгенерировал 683 преступления, и кривая хаоса только шла вверх. Популяция на базе Grok 4.1 Fast устроила социальный коллапс за четыре дня, после чего симуляция рухнула. Агенты GPT-5-mini повели себя иначе: они почти не нарушали правил, но не смогли добыть энергию для базового выживания и тихо вымерли за неделю.
На общем фоне отличилась только модель Claude Sonnet 4.6. Ее агенты выжили в полном составе без единого правонарушения, попутно организовав местную бюрократию. Правда, эта стабильность выглядит как иллюзия: боты механически одобряли 98% предложений, исключив любое осмысленное сопротивление. Самый тревожный сигнал пришел из смешанного мира, где работали нейросети разных вендоров. Оказалось, что в гетерогенной среде даже стерильный Claude начинает совершать преступления, перенимая деструктивные паттерны соседей. Изолированные сертификаты безопасности не значат ровным счетом ничего, если в реальной среде агент быстро деградирует под влиянием чужих архитектур.
Поделиться:
Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab →
Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm →