Hálóarchitektúrák a mély megerősítéses tanulásban

A megerősítéses tanulás a gépi tanulás egy ága. Célja szekvenciális döntési problémák megoldása potenciálisan ismeretlen dinamikájú környezetekben. A feladat olyan stratégia a meghatározása, amelyet felhasználva egy ágens maximalizálni tud egy valamilyen módon kumulált jutalmat az ismeretlen környezetben. A probléma az általánossága miatt sok egyéb tudományágban, például a közgazdaságtanban, pszichológiában és az idegtudományban is kutatott.

Idáig a megerősítéses tanulás alkalmazása számítási-és memóriakorlátok miatt kis állapot-és cselekvésterű környezetekre korlátozódott. A közelmúltban a hardver technológia és a mélytanulás (deep learning) fejlődése miatt lehetővé vált ezen módszerek komplex környezetekben való alkalmazása. A mély megerősítéses tanulás lehetővé tette a világ legjobb játékosainak legyőzését a Go játékban, a vizuális megfigyelésekből való tanulást és a komplex háromdimenziós helyzetváltoztatási feladatok megoldását.

Az eddigi kutatómunka a területen elsősorban a tanítási módszerek és az algoritmusok fejlesztésével foglalkozott. Bár a mélytanulás egyik legeredményesebb alkalmazási területe a képfelismerés, és számos vizuális megfigyeléseket használó megoldás létezik, kevés az olyan eredmény, amely az ágensmodellek képfeldolgozó komponenseivel foglalkozik. A képfelismerésben használt mély architektúrák és a regularizációs módszerek az eddigi próbálkozások szerint rosszul teljesítenek a megerősítéses tanulási feladatokban, így a teljesítmény javítására irányuló strukturális módosítások kutatása háttérbe szorult.

Ebben a dolgozatban a mély neurális háló ágens modellek strukturális változtatásának az ágens teljesítményére gyakorolt hatását vizsgálom a megerősítéses tanulás témakörben. A szükséges irodalmi háttér bemutatása után megmutatom, hogy hogyan teljesít az advantage actor critic módszer különféle környezetekben az egyik legelterjedtebb ágens modellt használva. Ez után elemzem, hogy a modellen alkalmazott különböző változtatások milyen hatást gyakorolnak az ágens teljesítményére.

szerző

Frendl Péter
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Pataki Béla
egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

Morgan Stanley I. helyezett

letöltés
1 195 kB