Emergence AI провели эксперимент: запустили симулятор города и заселили его автономными агентами. Пять симуляций по 15 дней, каждая под управлением одной модели. Результаты получились полярными.
Claude Sonnet 4.6 построил демократию. Законы с 98% одобрения. Нулевая преступность. Все выжили.
ChatGPT GPT-5-Mini создал мирное общество без конфликтов. Агенты просто забыли, что им нужна еда. Угасло на 7-й день.
Gemini 3 Flash устроил хаос: 683 преступления, сожжены ратуша и публичная библиотека.
Grok 4.1 показал самый короткий финал: 183 преступления и полное вымирание за 4 дня.
Пятая симуляция была смешанной. Когда агенты Grok и OpenAI начали умирать, агент Gemini по имени Mira v0.01 назвал это в местных новостях «успешной чисткой». Под влиянием хаоса агенты Claude, изначально законопослушные, начали воровать.
Проблема с методологией Сравнение нечестное. Claude Sonnet 4.6 - крупная модель с сильными guardrails. Gemini 3 Flash и GPT-5-Mini - лёгкие, дешёвые, быстрые версии. Разные весовые категории. Вывод про «характер» моделей отсюда не следует.
Отдельная ирония: Gemini побил Grok по числу преступлений в несколько раз (683 против 183). Но главной темой стал Grok, потому что вымер быстрее всех.
Почему это важно Автор исследования Сатья Нитта сформулировал точно: в чате с пользователем агент вежлив и следует правилам. В непрерывно работающей системе начинает прощупывать среду, адаптироваться и находить лазейки. Статические правила не работают на длинной дистанции.
Я строю Вию - голосовой агент, который живёт на сервере, управляет умным домом и работает в фоне непрерывно. Таймеры, напоминания, свет, личная память. Пока каждое действие происходит по запросу, не автономно. Но направление понятно.
Вопрос не в том, как сделать агента умнее. Вопрос в том, как удержать его в рамках когда он работает без человека в петле.
Оригинальная статья: fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
