Valós környezetbeli önvezető ágens tanítása mély megerősítéses tanulással és szimulátorbeli paraméterrandomizációval

A mély neurális hálózatok kiemelkedő figyelemben részesültek az elmúlt években. Segítségükkel számtalan különféle alkalmazási területen sikerült minden korábbinál jobb eredményeket elérni: például képfelismerési, objektumdetekciós, beszédfelismerési és -generálási, természetes nyelvfeldolgozási, továbbá idősorelemzési feladatokban is kiemelkedőnek bizonyultak. Ezek a modellek számos esetben még az embernél is pontosabban oldják meg a számukra kijelölt feladatot.

A mély megerősítéses tanulás a gépi tanulási algoritmusok azon csoportját foglalja magába, amelyekben egy intelligens ágens neurális hálózatok használatával képes megtanulni egy környezetben egy bizonyos cél elérését a megfelelő akciók végrehajtásával. Ezzel a módszerrel vált lehetővé, hogy számítógépes algoritmusok legyőzzék a világbajnokokat különféle tábla- és számítógépes játékokban, például a Go-ban vagy a StarCraft II-ben.

Azonban a mély megerősítéses tanulás használata nagyobb kihívást jelent olyan feladatokban, amelyekben például valós robotokat vagy járműveket szeretnénk használni. Ilyen feladatoknál jellemzően az ágenseket egy szimulátorban tanítják, majd a kész modellt átültetik a valós robotra. A megerősítéses tanulás alkalmazása önvezető járművek esetében már szimulátorban is egy nehéz kihívás, hiszen ezek az algoritmusok jellemzően instabilak, és nem rendelkeznek kellően megalapozott matematikai háttérrel. Továbbá a szimulátorban tanított ágensekre jellemző, hogy a valós környezetben történő használatkor jelentősen romlik a teljesítményük.

Dolgozatomban egy olyan eljárást dolgoztam ki, amellyel lehetséges önvezető ágenseket tanítani szimulátor segítségével, és ezeket sikeresen át lehet ültetni valós járművekre is. A dolgozatban bemutatom, hogyan értem el, hogy a Duckietown környezetben mély megerősítéses tanítás segítségével sikeresen megtanítsak egy robotot az autonóm közlekedésre a szimulátorban. Ezután bemutatom azt az eljárást, amit annak érdekében fejlesztettem ki, hogy a szimulátorban tanított ágensek a valós robotokon is sikeresen működjenek, hogy ezáltal a robotok teljesen autonóm módon tudjanak közlekedni.

A kidolgozott módszer robusztusságát olyan extrém körülmények között végzett tesztekkel igazolom, amelyekkel tanítás során az ágens nem találkozott explicit módon. A szimulátorban nappali körülmények között tanított ágens a valós környezetben akár éjszakai látási viszonyok között is képes közlekedni, illetve szabálytalan pozícióból indítva is vissza tud térni a megfelelő útsávba.

szerző

Almási Péter Béla
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Médiainformatikai Tanszék

helyezés

SAP Hungary Kft. II. helyezett

letöltés
14 623 kB