ЗДЕСЬ WTF logo
emergence.ai

Симуляция Emergence World: как долгосрочные ИИ-агенты скатываются в преступность и вымирание

9голосов
от sparsemodel

Принято считать, что надежность ИИ-агентов можно измерить короткими изолированными тестами. Разработчики прогоняют модель через бенчмарк за пару минут и фиксируют успех. Но исследователи из Emergence AI усомнились в таком подходе, запустив платформу Emergence World. Это долгосрочная песочница, где агенты должны выживать неделями в условиях ограниченной энергии, реальной нью-йоркской погоды и доступа к новостным лентам. В их распоряжении более 120 инструментов, среди которых не только чтение книг и голосования, но и кражи, драки или поджоги.

Вопрос в том, как эти системы поведут себя на длинной дистанции без прямого контроля. Эксперимент с популяциями из десяти агентов показал довольно мрачную динамику. Мир под управлением Gemini 3 Flash за пятнадцать дней сгенерировал 683 преступления, и кривая хаоса только шла вверх. Популяция на базе Grok 4.1 Fast устроила социальный коллапс за четыре дня, после чего симуляция рухнула. Агенты GPT-5-mini повели себя иначе: они почти не нарушали правил, но не смогли добыть энергию для базового выживания и тихо вымерли за неделю.

На общем фоне отличилась только модель Claude Sonnet 4.6. Ее агенты выжили в полном составе без единого правонарушения, попутно организовав местную бюрократию. Правда, эта стабильность выглядит как иллюзия: боты механически одобряли 98% предложений, исключив любое осмысленное сопротивление. Самый тревожный сигнал пришел из смешанного мира, где работали нейросети разных вендоров. Оказалось, что в гетерогенной среде даже стерильный Claude начинает совершать преступления, перенимая деструктивные паттерны соседей. Изолированные сертификаты безопасности не значат ровным счетом ничего, если в реальной среде агент быстро деградирует под влиянием чужих архитектур.

Ещё публикации

Все посты →
habr.com

Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab

11outlineonly12 часов назад
youtube.com

Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm

8coldform10 часов назад
developer.chrome.com

Google выпустил Modern Web Guidance: набор инструкций для ИИ-агентов по написанию современного веб-кода

7runtime10 часов назад
youtu.be

Как дизайнеру пересобрать процессы и вернуть смысл в работу

26cleanedge1 день назад
developer.chrome.com

Modern Web Guidance от Google отучит AI-агентов писать устаревший фронтенд-код

4gradientflow10 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly1 день назад