Felderítési módszerek vizsgálata mély megerősítéses tanulás gyorsítására

A mély megerősítéses tanulás lehetővé teszi, hogy rendkívül komplex környezetekben is optimális stratégiákat találjunk. A kutatás jó terepe a bonyolult játékok, mint a Go vagy az Atari játékok, vizsgálata.

Az optimális stratégiák tanulásának egyik fontos kérdése a kihasználás és felderítés közti helyes kompromisszum megtalálása. Ahhoz, hogy az ágens jutalma maximális legyen, a meglévő stratégiáját kell követnie, ami minden lépésben megmondja, mi a legnagyobb ígérő akció, amit választhat. Ugyanakkor fontos a felderítés is, azaz olykor el kell térni az optimálisnak vélt akciótól, hogy új információt nyerjen az ágens. A felderítés megfelelő megvalósítása nagyságrendekkel gyorsíthatja az optimális stratégiához való konvergálást, így komplexebb feladatok megoldását lehetővé téve.

A híres DeepMind mély megerősítéses tanulásos model a legegyszerűbb epszilon-mohó felderítési módszert alkalmazta, ahol az ágens minden lépésben epszilon valószínűséggel véletlenszerűen választ akciót. Ez a módszer egyszerűségét tekintve előnyös, azonban sok más kifinomultabb lehetőség is felvethető. Dolgozatomban ezeket a módszereket és hatásukat vizsgálom a DeepMind Atari játékok felhasználásával.

szerző

Pilinszki-Nagy Csongor
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Pataki Béla
egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék