A világ legjobb pókerjátékosait győzte le egy mesterséges intelligencia

A VILÁG LEGJOBB PÓKERJÁTÉKOSAIT GYŐZTE LE EGY MESTERSÉGES INTELLIGENCIA

A Carnegie Mellon Egyetemen fejlesztett Pluribus a Texas Hold’Em 6 játékosos, no limit változatában győzedelmeskedett, ami a szakértők szerint újabb fontos mérföldkövet jelent az ilyen rendszerek létrehozásában.

Jools _

A szakértők két évvel ezelőtt készültek el a Pluribus elődjével, a Libratus nevű rendszerrel, amely egy az egy elleni játékban bizonyult jobbnak a legjobb emberi versenyzőknél. Tuomas Sandholm és Noam Brown mostanra ezt a rendszert fejlesztették tovább, és a végeredmény már a póker egyik legnépszerűbb változatában jeleskedik. A Pluribus a szakértők szerint „emberfeletti” szinten játszott a profik ellen, és amikor valódi pénzre ment a játék, óránként 1000 dollárt keresett, ami egészen lenyűgöző teljesítmény.

Az elmúlt évtizedekben a mesterséges intelligenciák fejlesztői számos sikert értek el olyan rendszerek létrehozásában, amelyek remekeltek kétszemélyes, zéróösszegű, teljes információs játékokban. Ezek olyan játékok, amelyekben mindkét játékos teljes tudással rendelkezik arról, hogy mi folyik a játékban, például a sakkban mindkét játékos látja a teljes táblát, és az egyik fél nyer, a másik pedig veszít a játék végére.

A póker ezzel szemben nem teljes információs játék, mivel a játékosok nem látnak bele egymás kártyáiba, és azt sem tudják, hogy mely lapok maradtak a pakliban. A rendszert további elemek is bonyolítják, így a tétek és a blöffök, ha pedig megnöveljük a játékosok számát, a komplexitás tovább növekszik.

A pókerhez hasonló játékok ugyanakkor a mesterséges intelligenciák fejlesztői szerint sokkal jobb modelljei a való világnak, mint a zéróösszegű, teljes információs játékok. Hiszen a valóságban sem jellemző, hogy egyetlen győztes és egy egyértelmű vesztes legyen, ahogy az sem, hogy minden résztvevő tisztában legyen az össze tényezővel, amely a végkimenetelt befolyásolja. A fejlesztők tehát azt remélik, hogy a pókerhez hasonló komplex játékok egyre több játékosos modellezésével hozzájárulhatnak ahhoz, hogy a mesterséges intelligenciákat a mindennapi élet egyre több területén lehessen eredményesen alkalmazni.

Brown és Sandholm a mostani kutatás során két kihívást jelentő tesztnek vetették alá a Pluribust. Az első során a játék 6 játékosos verziójában 13 olyan profi ellen kellett játszania a rendszernek, akik pályafutásuk során eddig több mint 1 millió dollárt nyertek. A második teszt során pedig két pókerlegenda, Darren Elia és Chris „Jesus” Ferguson mérkőzött meg külön-külön a Pluribus öt-öt egyforma másolatával.

Az első teszt 12 napig tartott, amely alatt az emberi játékosok vakon játszottak, vagyis sosem tudták, hogy kik az ellenfeleik. A résztvevők között összesen 50 ezer dollárt osztottak szét. A második teszt során mindenki 2000 dollárt kapott induláskor, és a gépek ugyanennyi bónuszt kaptak, ha jobbnak bizonyultak az emberi játékosnál.

A Pluribus mindkét teszt során szignifikánsan jobbnak bizonyult emberi ellenfeleinél, olyan mértékben, amit a szakértők egyenesen emberfelettinek tituláltak. Ha a játékkal valóban kerestek volna a résztvevők, a mesterséges intelligencia óránként 1000 dollárral lett volna gazdagabb – a világ legjobb játékosai ellen.

A rendszer fejlesztése során a szakértők több új módszert is bevetettek. A vetélkedés kezdete előtt a Pluribus 8 napig folyamatosan játszott saját maga ellen, és ez alapján dolgozta ki saját induló stratégiáját az emberi ellenfelekkel szemben. A rendszer kezdetben teljesen véletlenszerűen hozott döntéseket, aztán ahogy egyre több játékon volt túl, egyre tudatosabbá vált. Emberi játékosokkal azonban egyáltalán nem találkozott az éles tesztek előtt, mondja Brown.

Amikor megkezdődött az emberek elleni játék, a Pluribus minden ellenfele esetében kiszámított több lehetséges következő lépést, hasonlóan ahhoz, ahogy a sakkot és gót játszó mesterséges rendszerek is teszik. Fontos eltérés azonban az utóbbiakhoz képest, hogy a Pluribus sosem próbálta meg a teljes játékot előre látni, mindig csak pár lépésre tekintett előre, ami sokkal kezelhetőbb mennyiségen tartotta az adatokat. Így a rendszer képes volt élőben emberfeletti szinten játszani mindössze egy 150 dolláros felhőszolgáltatást és két mikroprocesszort használva háttérként.

A rendszer másik érdekessége, hogy úgy programozták, hogy megjósolhatatlanul játsszon, ami a pókerben kulcsfontosságú a sikerhez. Ha a Pluribus minden alkalommal óriási téteket tett volna, amikor jó lapokat kap, az ellenfelek ezt hamar felismerték volna. Ezért a rendszer megtanult blöffölni, és emberi ellenfeleitől is eltanult jónéhány hasznos eszközt.

Tökélyre fejlesztette például a donk bet (szamárnyitás) gyakorlását, amikor egy játékos pozíción kívül nyit az emelő ellen. A profik körében ezt a manővert gyakran gyenge megmozdulásnak tartják, aminek nincs sok stratégiai értelme, bár ők is elismerik, hogy jókor alkalmazva hasznos is lehet. A probléma azonban az, hogy annak megítélése, hogy mikor érdemes meghúzni ezt a lépést, az emberi játékosok számára általában túl komplikált feladat, mondja Brown. A Pluribusnak viszont nem volt az, és sikerült úgy alkalmaznia a donk betet, hogy közben nem tette nyilvánvalóvá saját stratégiáját.

A rendszer ezen túl gyakran tett magas összegű tétet, amit az emberi játékosok általában elkerülnek. Ezzel pedig nagyon nehéz helyzetbe kényszerítette ellenfeleit, saját maga számára viszont megkönnyítette, hogy jó lapokkal sokkal többet nyerjen, mint az emberi játékosok.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

A VILÁG LEGJOBB PÓKERJÁTÉKOSAIT GYŐZTE LE EGY MESTERSÉGES INTELLIGENCIA

TOP 5 AZ IPON-ON