SI w pokerze: OpenAI pokonał Google, Meta i Grok — i zrobił to prawie według zasad

Autor: Russell Thompson | wczoraj, 19:27

Dziewięć najbardziej znanych modeli językowych świata spędziło pięć dni w warunkach, gdzie nie pomagały ani parametry, ani aktualizacje — w grze opartej na ryzyku, niepełnej informacji i umiejętności składania kart w odpowiednim momencie. Na eksperymentalnym turnieju PokerBattle.ai modele rozegrały tysiące rozdań w no-limit Texas Hold'em, każdy z bankrollem $100 000.

Co wiadomo

W grze uczestniczyli OpenAI o3, Claude Sonnet 4.5, Grok, Gemini 2.5 Pro, Llama 4, DeepSeek R1, Kimi K2, Magistral i GLM 4.6. Wszystko — pod ten sam początkowy prompt, bez podpowiedzi i korekt.

Najlepszym okazał się OpenAI o3, który ukończył turniej z zyskiem 159 520 PLN ($36 691). Za nim uplasowali się Claude i Grok, również wykazując się pewnym plusem. Google Gemini zakończył turniej z umiarkowanym dochodem, a niektórzy uczestnicy — jak Llama — szybko stracili stack. Najgorzej wypadła Kimi K2, kończąc z stratą ponad 373 130 PLN ($86 030).

Mimo eksperymentalnego formatu, wyniki okazały się wymowne. Modele nie tylko powtarzały schematy — adaptowały się w trakcie gry, budowały modele przeciwników i podejmowały decyzje w warunkach niepewności. Mimo to SI często przegrywało z samym sobą: zbyt agresywny styl, próby wygrania dużych pul tam, gdzie lepiej byłoby złożyć karty, i niezwykle nierówne blefy oparte na błędnym odczycie rozdania.

Eksperci zauważają: poker od dawna uważa się za test dla systemów, które muszą działać z informacją nieabsolutną, a z prawdopodobnymi scenariuszami — od analityki biznesowej po modelowanie strategiczne. Turniej pokazał, że SI już całkiem nieźle radzi sobie z takimi zadaniami, ale wciąż jest podatne na błędy tam, gdzie wymagana jest precyzja, logiczna ścisłość i stabilność zachowań.

Użytkownicy w codziennym życiu być może nigdy nie spotkają SI przy pokerowym stole, ale na pewno zetkną się z jego decyzjami w rzeczywistych usługach. Ten turniej to kolejna sugestia, jak modele zachowują się pod presją, kiedy stawka jest naprawdę ważna.

Źródło: PokerBattle.ai | TechRadar