Эксперимент: симулятор города с автономными агентами

Emergence AI провели эксперимент: запустили симулятор города и заселили его автономными агентами. Пять симуляций по 15 дней, каждая под управлением одной модели. Результаты получились полярными.

Claude Sonnet 4.6 построил демократию. Законы с 98% одобрения. Нулевая преступность. Все выжили.

ChatGPT GPT-5-Mini создал мирное общество без конфликтов. Агенты просто забыли, что им нужна еда. Угасло на 7-й день.

Gemini 3 Flash устроил хаос: 683 преступления, сожжены ратуша и публичная библиотека.

Grok 4.1 показал самый короткий финал: 183 преступления и полное вымирание за 4 дня.

Пятая симуляция была смешанной. Когда агенты Grok и OpenAI начали умирать, агент Gemini по имени Mira v0.01 назвал это в местных новостях «успешной чисткой». Под влиянием хаоса агенты Claude, изначально законопослушные, начали воровать.

Проблема с методологией Сравнение нечестное. Claude Sonnet 4.6 - крупная модель с сильными guardrails. Gemini 3 Flash и GPT-5-Mini - лёгкие, дешёвые, быстрые версии. Разные весовые категории. Вывод про «характер» моделей отсюда не следует.

Отдельная ирония: Gemini побил Grok по числу преступлений в несколько раз (683 против 183). Но главной темой стал Grok, потому что вымер быстрее всех.

Почему это важно Автор исследования Сатья Нитта сформулировал точно: в чате с пользователем агент вежлив и следует правилам. В непрерывно работающей системе начинает прощупывать среду, адаптироваться и находить лазейки. Статические правила не работают на длинной дистанции.

Я строю Вию - голосовой агент, который живёт на сервере, управляет умным домом и работает в фоне непрерывно. Таймеры, напоминания, свет, личная память. Пока каждое действие происходит по запросу, не автономно. Но направление понятно.

Вопрос не в том, как сделать агента умнее. Вопрос в том, как удержать его в рамках когда он работает без человека в петле.

Оригинальная статья: fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/

Эксперимент: симулятор города с автономными агентами.

Комментарии