Regisztráció és bejelentkezés

Megerősítéses tanulás és MCTS integrálása trajektória követés esetére

Napjainkban az autóipar egyik kiemelt célja a magasszintű automatizáltságot biztosító önvezető rendszerek fejlesztése. Ezeknek a törekvéseknek a legfőbb akadálya a közlekedéssel kapcsolatos irányítási feladatok sokfélesége és komplexitása, amely nem csupán a fejlesztéseket lassítja, hanem új megközelítések és algoritmusok használatát igényli, ennek köszönhetően egyre nagyobb a gépi tanulás szerepe a klasszikus algoritmusok mellett. Járműirányítási feladatok megoldására gyakran használnak felügyelt tanulást, ahol a bement és kimenet közötti kapcsolat reprodukálása a cél, ilyen rendszerek segítségével több jelentősebb eredményt is sikerült elérni, azonban ezeknek a megoldásoknak több hátránya is van, ilyen a nagy méretű címkézett adathalmazok szükségessége és az elérhető eredmény korlátozottsága. A megerősítéses tanulást a gépi tanulás másik ágát azonban egyik említett hátrány sem érinti, ezért és a szabályozási feladatok területén elért eredményei miatt vált népszerűvé a kutatok körében az elmúlt néhány évben, viszont az algoritmusoknak ez a csoportja sem mentesül a gépi tanulást sújtó általános problémáktól, melyek a nem megfelelő robusztusság, illetve a gyakran felmerülő rossz konvergencia tulajdonságok. A klasszikus algoritmusok problémája, hogy ugyan képesek optimális vagy szuboptimális megoldásokat biztosítani, azonban gyakran nem áll rendelkezésünkre olyan számítási kapacitás, amellyel ezek elérhetőek lennének valós időben vagy ha elérhetőek a túl nagy költségek miatt nem tudunk ilyen eszközöket használni. A kereső algoritmusok területén az említett gyengeségeket a Monte Carlo Tree Search algoritmus mérsékli, amely lehetőséget ad egy aszimmetrikus keresőfa felépítésére egy domén specifikusan hangolható egyensúly kialakításán keresztűl a mohó és nem informált keresési technikák között. A dolgozatom célja, egy olyan algoritmus fejlesztése, mely az MCTS által biztosított eredményeket felhasználva növeli a tanuló algoritmusokkal elérhető eredmény robusztusságát, javítja a konvergencia tulajdonságokat és eközben a valós idejű felhasználást is lehetővé teszi. Az algoritmus tesztelését egy kinematikai bicikli modell trajektória követési feladatán keresztül végzem el, amely során több algoritmus által biztosított eredmény minőségét hasonlítom össze.

szerző

  • Kővári Bálint
    Járműmérnöki
    mesterképzés (MA/MSc), nappali

konzulens

  • Dr. Bécsi Tamás
    egyetemi docens, Közlekedés- és Járműirányítási Tanszék

helyezés

I. helyezett