A hibák kihasználásában az emberi játékosok még jóval a botok előtt járnak - interjú Libratus fejlesztőjével

Interjúk | olvasási idő
2017. február 15.
Noam Brown szerint Libratust két éven belül 6-max játékban sem múlja felül egyetlen emberi játékos sem.
Mint arról beszámoltunk, a Carnegie Mellon University új botja, Libratus, valósággal lesöpörte a high stakes heads-up specialista profikat, a Dong "Donger Kim" Kim, Jason "PremiumWhey" Les, Jimmy "ForTheSwaRMm" Chuo és Daniel "dougiedan678" McAulay alkotta négyest. A bot $1.766.250-ral nyert a 120.000 leosztás alatt - a felek minden leosztást $20.000-ral kezdtek, a vak $50/$100 volt. A játék, a profik szerencséjére, nem valós pénzben folyt.

A napokban Libratus egyik vezető fejlesztője, Noam Brown nyilatkozott a CardPlayer magazinnak. A beszélgetés során számos érdekes dolgot elmondott, például, hogy - véleménye szerint - két éven belül a 6-max játékban sem lesz ellenfele Libratusnak.


A kép közepén Noam Brown

Meglepett a mérkőzés végeredménye?


Igen, nem számítottam rá, hogy ennyire jó lesz a bot. Persze, mielőtt belevágtunk a versenybe, teszteltük, és láttuk, hogy jó, például összeengedtük Claudicóval, és 10-12 bb/100-zal verte, vagyis jobban, mint az emberi ellenfelek az első ilyen meccsen. De azért nem jelentősen jobban. Szóval úgy vágtunk neki a mostani párbajnak, hogy arra számítottunk, van valamennyi edge-ünk a profik ellen, de összességében bizonytalanok voltunk, mekkora ez az edge. Arra semmiképpen nem számítottunk, hogy ekkora, ez minket is lenyűgözött.


Tehát fel sem merült benned, hogy a mesterséges intelligenciátok 14 bb/100-zal gázol át az emberi játékosokon?


Nem. Ez a siker valójában nagyban köszönhető a profiknak, akik az első meccsen megtalálták Claudico hibáit, és kihasználták azt. Ez a második meccsen a mi előnyünkre szolgált, hiszen javítottuk ezeket a hibákat. Libratus nem az exploitív stratégiát játssza, és az, hogy enélkül ennyivel meg tudta verni Claudicót, megmutatta az erejét. Libratus jobb, mint az emberi játékosok, legalábbis heads-upban, rajta már nem találtak fogást, amit ki lehett volna használni.


Volt egy olyan pontja a meccsnek, amikor az emberi játékosok visszajöttek közel egálra. Eszedbe jutott ekkor, hogy lehet, hogy Libratuson is edge-et találtak?

Igen, az első hét végén visszakapaszkodtak közel egálra. Az első héten nagyon sokat egyeztettek a játékosok, hogy megtatálják a bot erősségeit és gyengeségeit. Próbálták megfejteni a gondolkodását. Bár nem beszéltem velük, amit hallottam, az alapján nem jártak mindenben jó úton, emiatt a párbaj első részében sem aggódtam különösebben. Azt hitték, hogy van egy hibája a mesterséges intelligenciának, és ki tudják használni, de én tudtam, hogy az a hiba valójában nem létezik. Például volt, hogy 80%-ban kezdték 3betelni a botot, mert úgy látták az addigi leosztások alapján, hogy bizonyos méretű 3betelt kasszákban rosszul teljesít. Én viszont biztos voltam benne, hogy ez nincs így, akkor sem, ha a rendelkezésükre álló még kisebb minta erre enged következtetni. Olyan is volt, hogy felfedezték, a bot rosszul reagál bizonyos nyitási méretezésekre. A bot azonban felkészült erre, amíg a profik aludtak, kijavította ezeket a hibákat, hogy ne tudják hosszabb távon kihasználni. Ez hozzájárult ahhoz, hogy az első héten még versenyben voltak a játékosok, de később már nem találtak fogást.


A sessionök utáni finomhangolás kulcsfontosságú volt a sikerben?


Vannak ezzel kapcsolatban félreértések, nem volt igazi finomhangolás a boton. Semmi olyan nem történt, hogy mondjuk azt mondtuk neki, hogy 4betelj többet, vagy dobj többet. Annyi történt, hogy a játékosok más bet sizingot használtak preflop és flopon, mint amire felkészült. Sok betsizingot ismert a bot, tudta, hogyan játsszon 2x, 2,5x, 3× sizing ellen, a játékosok azonban 2,75x sizingot kezdtek használni, amit a bot 3x-re kerekített, és ennek megfelelően játszott. Ez sem hatalmas hiba, de természetesen jobb, ha a konkrét sizing ellen játszik. Egy éjszaka alatt kidolgozta a 2,75x elleni játékot az algoritmusa alapján, amihez egyáltalán nem nyúltunk. Ez volt az egyetlen úgymond finomhangolás, megtanulta, hogyan reagáljon jobban a különféle preflop és flop bet sizingokra. Ez kulcsfontosságú része az algoritmusának, ez teszi lehetővé az alkalmazkodást az emberi ellenfelek játékstílusához. De nem történt semmilyen változtatás, mint ahogyan azt néhányan szóvá tették, végig ugyanaz a bot játszott. Egyszerűen csak tanult a játék addigi történéseiből.


Tehát a turn és river játék kevésbé volt problémás a bot számára, mint a preflop és flop játék?

Talán megfigyelhető volt, hogy turnön és riveren gondolkodott a bot. Szüksége volt egy kis időre, hogy megtervezze az akciót. Lehet, hogy annyira nem lehetett ezt észrevenni, mert gyorsan történt, de minden alkalommal kiszámolta a megfelelő stratégiát, hogy tökéletesen reagáljon, függően attól, hogy hogyan méretezték a hívásaikat az ellenfelek ezeken az utcákon. A turn és river játék mindig valós idejű számítást jelentett.


Mennyire van messze Libratus játéka a tökéletes GTO-tól?

Ezt senki sem tudja megmondani. Vannak módszerek, amikkel mérhető lenne, de ezek rendkívül drágák, ezért egyelőre nem alkalmaztuk őket. Jövőre valószínűleg megnézzük, hol is tartunk. Ha tippelnem kéne, azt mondanám, hogy egy tökéletes GTO-t játszó bot kábé 15 bb/100-zal verné Libratust. De ez csak egy durva becslés. Bárhol lehet az eredmény 5-50 bb/100 között.


Sokszor szóba kerül, milyen agresszív volt Libratus az overbetek tekintetében turnön és riveren. Ez egy olyan dolog, ami már a tökélyt közelíti, vagy bőven van még tér a fejlődésre mondjuk a range jobb balanszálásávak ilyen spotokban?

Ezek az overbetek voltak azok, amik a legjobban megleptek minket a verseny alatt. Libratus nem korábbi leosztások elemzésével építette fel a játékát, egyetlen emberi leosztást sem látott a párbaj előtt. Saját stratégiát alakított ki, amit ő optimálisnak gondolt, és látható volt, hogy ez sok tekintetben más, mint amit napjaink pókeresei optimálisnak tartanak. A nagy overbetek és a sok donk bet láthatóan fontos részét képezték az egyedi stratigiájának. Hihetetlenül lenyűgöző volt látni, hogy a bot olyan játékelemekkel gázol át ellenfelein, amik napjaink pókerében nincsenek jelen, vagy nem ilyen hangsúlyban.

Már Claudicónál is megvolt ennek az agresszív játéknák a csírája, híres volt a nagy all-inekről kis potokban. De az akkor még inkább hiba volt a kiegyensúlyozatlanság miatt, ki tudták használni az ellenfelek. Libratus viszont kiegyensúlyozottan volt agresszív, ami kulcsfontosságú.


Úgy tűnik, nagyon sok pókerest aggaszt az eredmény, hogy mit jelenthet ez az online póker jövője szempontjából. Mi erről a véleményed?


Azt garantálom, hogy Libratus nem fog soha online játszani. Azt viszont nem tudjuk, mások mire használják a publikációinkat, kifejlesztenek-e egy olyan magasszintű botot, amit aztán bevetnek online. Nem akarok találgatásokba bocsátkozni, mert nem ismerem annyira jól az online póker világát. Azt tudom, hogy jelenleg is vannak botok és azt is, hogy a termek tiltják őket, és igyekeznek fellépni ellenük. Nem tudom, melyik oldal nyeri a háborút.


Ha kisebb stackekkel kellene Libratusnak játszania, az változást hozna a teljesítményében?


Azért választottuk a 200 bb-t, mert ez az Annual Computer Poker Competition standardja. Ez az a verseny, ahol a botok évről évre összemérik tudásukat egymással pókerben. Ez azért van, mert a deep játék nagyobb kihívás a mesterséges intelligenciának, hiszen nő a lehetséges játékvariációk száma. Tudomásom szerint a 200 bb-s beülő a teteje annak, amennyivel a pókeresek játszani szoktak. Ez egy megfelelő stack ahhoz, hogy fairnek tartsuk emberi ellenfelekkel folytatott játékban és kihívást jelentsen a mesterséges intelligenciának is. Kisebb stackkel egy bot még jobb játékot nyújtana. A kérdés inkább az, hogyan teljesítene 500 vagy 1000 bb deepen. Szerintem egyébként legalább úgy, mint 200 bb deepen, ha nem jobban. Úgy tűnt, Libratusnak, a nagy overbetjeivel, fekszik a deep játék, és azt hiszem, az emberi játékosok nehezebben alkalmazkodnának az ennyire deep játékhoz, mint ő.


Van olyan területe a No Limit játéknak, amelyben még törekedtek az emberi játékosok legyőzésére?


Némi fejlesztésünk már volt a 3-handed póker területén. Általánosságban azt mondhatom, hogy Libratus játéka több ellenféllel szemben sem működik rosszul. A problémát tulajdonképpen nem a bot tudása jelenti, hanem a bot teljesítményének a kiértékelése. Mert játszhat valaki tökéletes GTO-t, veszíteni fog, ha a többi játékos összejátszik implicit vagy explicit módon. Nagyon nehéz betenni egy botot egy 6-handed játékba, és megállapítani, hogy akkor most jobban teljesített az ellenfeleinél, vagy nem. Nem igazán lehet ezt mérni. Ez az oka, hogy főként heads-up játékban teszteljük.

Lehet, hogy a 6-max játék még kicsit sok lenne Libratusnak és a többi hasonló botnak. De az Annual Computer Poker Competition már 6-max játékban is kiír versenyeket, emiatt azt gondolom, ezen a területen is gyors fejlődés várható. Hiszem, hogy Libratus, kis fejlesztéssel, két éven belül bármelyik emberi játékosnál jobb lesz 6-maxban. Még nem egyértelmű viszont számomra, hogy 6-max játékban a GTO vagy a gyengébb ellenfelek hibáinak a kihasználása jelenti-e a hatékonyabb stratégiát. A hibák kihasználásában az emberi játékosok még jóval a botok előtt járnak.



Kapcsolódó cikkek

0 hozzászólás