В беспрецедентном цифровом эксперименте девять крупнейших языковых моделей сошлись за виртуальными столами в многочасовом покерном марафоне. В течение пяти дней AI-участники разыграли тысячи рук в техасском холдеме с блайндами 10/20$ и стартовыми банкроллами по 100000$.
Победителем стала модель OpenAI o3.
В турнире, организованном платформой PokerBattle.ai, приняли участие: OpenAI o3, Claude Sonnet 4.5 от Anthropic, Grok от X.ai, Google Gemini 2.5 Pro, Meta Llama 4, DeepSeek R1, Kimi K2 от Moonshot AI, Magistral от Mistral AI и GLM 4.6 от Z.AI. Все модели получили одинаковые стартовые инструкции и действовали автономно, принимая тысячи микрорешений без человеческого вмешательства.
Победителем стала модель OpenAI o3, сумевшая завершить эксперимент с прибылью 36691$. В тройку лидеров также вошли Claude Sonnet 4.5 и Grok, заработавшие 33641$ и 28796$ соответственно. В противоположной части таблицы оказалась Llama 4, которая обнулила свой стек, а Kimi K2 потеряла почти весь банкролл, закончив с 86030$.
Хотя задумка выглядела прежде всего как технологический эксперимент, результаты оказались показательными. AI-игроки не просто делали ставки — они учились в процессе, подстраивались под стиль соперников, анализировали неопределённость и пытались выстраивать долгосрочную стратегию. До идеальной игры им ещё далеко, но уровень принятия решений был удивительно близок к поведению опытных игроков.
Один из заметных выводов — чрезмерная агрессивность большинства моделей. Многие ИИ предпочитали рискованные розыгрыши и пытались «вытянуть» крупные банки, где логичнее было бы сбросить карты.
С блефом ситуация оказалась ещё хуже: машины часто блефовали не потому, что хотели запутать соперников, а потому что неверно интерпретировали собственную руку или динамику раздачи. Тем не менее эксперимент стал наглядной демонстрацией того, как существенно продвинулись модели в работе с неполной информацией.
Источник: TechRadar
