Megerősítéses tanulás és MCTS integrálása trajektória követés esetére

Napjainkban az autóipar egyik kiemelt célja a magasszintű automatizáltságot biztosító önvezető rendszerek fejlesztése. Ezeknek a törekvéseknek a legfőbb akadálya a közlekedéssel kapcsolatos irányítási feladatok sokfélesége és komplexitása, amely nem csupán a fejlesztéseket lassítja, hanem új megközelítések és algoritmusok használatát igényli, ennek köszönhetően egyre nagyobb a gépi tanulás szerepe a klasszikus algoritmusok mellett. Járműirányítási feladatok megoldására gyakran használnak felügyelt tanulást, ahol a bement és kimenet közötti kapcsolat reprodukálása a cél, ilyen rendszerek segítségével több jelentősebb eredményt is sikerült elérni, azonban ezeknek a megoldásoknak több hátránya is van, ilyen a nagy méretű címkézett adathalmazok szükségessége és az elérhető eredmény korlátozottsága. A megerősítéses tanulást a gépi tanulás másik ágát azonban egyik említett hátrány sem érinti, ezért és a szabályozási feladatok területén elért eredményei miatt vált népszerűvé a kutatok körében az elmúlt néhány évben, viszont az algoritmusoknak ez a csoportja sem mentesül a gépi tanulást sújtó általános problémáktól, melyek a nem megfelelő robusztusság, illetve a gyakran felmerülő rossz konvergencia tulajdonságok. A klasszikus algoritmusok problémája, hogy ugyan képesek optimális vagy szuboptimális megoldásokat biztosítani, azonban gyakran nem áll rendelkezésünkre olyan számítási kapacitás, amellyel ezek elérhetőek lennének valós időben vagy ha elérhetőek a túl nagy költségek miatt nem tudunk ilyen eszközöket használni. A kereső algoritmusok területén az említett gyengeségeket a Monte Carlo Tree Search algoritmus mérsékli, amely lehetőséget ad egy aszimmetrikus keresőfa felépítésére egy domén specifikusan hangolható egyensúly kialakításán keresztűl a mohó és nem informált keresési technikák között. A dolgozatom célja, egy olyan algoritmus fejlesztése, mely az MCTS által biztosított eredményeket felhasználva növeli a tanuló algoritmusokkal elérhető eredmény robusztusságát, javítja a konvergencia tulajdonságokat és eközben a valós idejű felhasználást is lehetővé teszi. Az algoritmus tesztelését egy kinematikai bicikli modell trajektória követési feladatán keresztül végzem el, amely során több algoritmus által biztosított eredmény minőségét hasonlítom össze.

szerző

Kővári Bálint
Járműmérnöki
mesterképzés (MA/MSc), nappali

konzulens

Dr. Bécsi Tamás
egyetemi docens, Közlekedés- és Járműirányítási Tanszék

helyezés

I. helyezett