Monte Carlo Tree Search alkalmazása Megerősítéses Tanulásban sávtartás megvalósítására

Napjainkban egyre nagyobb hangsúlyt kap a járművek autonóm irányítása az utasok kényelme és biztonsága érdekében. Ilyen rendszerek például a távolságtartó tempomat, a parkolást segítő és sávtartó rendszerek, melyek Gépi Tanulás (Machine Learning) alapú algoritmusokat használnak. Az autonóm járműirányítás területén felmerülő szekvenciális döntéshozatali problémákra, amelyek egyike a sávtartás feladata, korszerű és kiemelkedő megoldást nyújthat a Megerősítéses Tanulás (Reinforcement Learning) alkalmazása, amely a Gépi Tanulás egyik ága.

Az egyik cél ebben a kutatásban az optimális jutalmazási (reward) függvény megtalálása, amely a sávtartás komplex feladatának hatékony elsajátítását segíti elő az ágens számára. Az ideális jutalmazási függvény kiválasztásához egyesével kell tesztelni az összes lehetséges megoldást, ami rendkívül időigényes folyamat. Emellett pedig a tanítások gazdasági vonatkozásai is jelentősek, mivel a célra fenntartott felhőben lévő GPU-k igénybevételével, tehát a tanítással eltöltött idővel és erőforrás allokációval együtt a költségek növekednek.

A probléma megoldására a Monte Carlo Tree Search fakereső algoritmus egy alternatív felhasználási módja fog segítséget nyújtani. A Monte Carlo Tree Search több jutalmazási függvény közül tanítás nélkül, gyorsan és megbízhatóan állapítja meg, hogy melyik a legmegfelelőbb a kitűzött feladathoz, a tanítandó ágens végső teljesítménye szempontjából. Ebben a dolgozatban a sávtartás problémáján keresztül kerül alátámasztásra a módszer hitelessége, amivel jelentős idő- és költségmegtakarítás érhető el, a betanított ágens performanciájának változatlansága mellett.

szerző

Mitrenga Márk
Járműmérnöki
alapképzés (BA/BSc)

konzulens

Kővári Bálint
PhD hallgató, Közlekedés- és Járműirányítási Tanszék

helyezés

Jutalom