Minta-hatékony mély megerősítéses tanulás véletlenszerű kinézetű környezetekkel

Napjainkban az önvezető járművek témáját a tudományos közösség és a közvélemény részéről is nagy érdeklődés övezi. Mivel a mély tanulás területe eszközöket kínál a nagy mennyiségű szenzoradat feldolgozásához, a megerősítéses tanulás pedig a megfelelő döntések meghozatalában segíthet komplex, interaktív környezetek esetén, felhasználásuk az egyik módja lehetne annak, hogy az önvezetés feladatát megoldjuk. Vannak azonban nehézségek, amik hátráltatják ezeknek a módszereknek valós környezetben történő felhasználását.

Az egyik ilyen probléma a megerősítéses tanulás adatéhsége. Mivel a tanuláshoz felhasználható egyetlen jelzés az aktuális jutalom nagysága, rengeteg felfedezésre, kísérletezésre van szükség, hogy meghatározzuk a felhasznált háló paramétereinek megfelelő értékeit. Egy lehetséges megoldás a felügyelet nélküli tanulás, melynek során a bemeneti adatot úgy tanuljuk meg hatékonyabban reprezentálni, hogy olyan feladatokat oldunk meg, melyek megoldását már a nyers, címkézetlen adat is tartalmazza.

Mivel a mesterséges intelligenciát használó ágensek valós környezetben történő tanítása sokáig tart, ezért sokszor túl drága lenne, néha még veszélyes is, így előnyös lehet erre a célra szimulált környezeteket használni. Azonban a szimulátorok csak tökéletlen modelljei a valóságnak, ezért a valós alkalmazásukkor az ágensek teljesítménye általában jelentősen csökken. Ezt a jelenséget nevezzük a szimuláció és valóság közötti résnek. Egy lehetséges megoldás a véletlenszerű környezetek módszere, mellyel a tanítás során a szimuláció bizonyos paramétereit véletlenszerűen megváltoztatjuk, így kényszerítjük az ágenst arra, hogy robusztus legyen környezetének változásaival szemben. Ezáltal növelhetjük a valós alkalmazás sikerének esélyét, azonban így általában még több tanító adatra van szükség.

Dolgozatomban egyszerre alkalmazom a véletlenszerű környezetek módszerét a szimulátor kinézetének változtatására, és a felügyelet nélküli tanulást, melynek során a bemeneti képeket tömörítem majd rekonstruálom variációs autoenkóderek segítségével. Az így kapott tömörebb reprezentációt a felhasználva lehet a megerősítéses tanítást minta-hatékonyabbá tenni.

Dolgozatom célja, hogy egy új módszert mutassak a két technika együttes alkalmazására, mellyel az előnyeik kölcsönösen megőrizhetők. Megvizsgálom, hogy miért lehet a naiv kombináció szuboptimális, és új megoldást javaslok a tapasztalatok alapján. Munkám fő ötlete az, hogy a módosított kinézetű bemeneti képek alapján ne önmagukat, hanem önmaguk módosítatlan (kanonikus) verzióját rekonstruáljuk.

A bemutatott megoldás lehetőséget nyújt a tanítást követő valós alkalmazás minőségének becslésére kvantitatív és vizuális módon, címkézetlen valós képek felhasználásával. Továbbá előzetes szakértői tudással is segíthetjük a rendszer tanulását úgy, hogy mi választjuk meg a kanonikus képek kinézetét.

A bemutatott módszert a Duckietown önvezető környezetben alkalmazom, ahol sávkövetés a megoldandó feladat egy differenciális meghajtású jármű irányításával, mindössze egy kamera képe alapján. Az algoritmusokat a PyTorch nyílt forráskódú mély tanuló programkönyvtár segítségével valósítom meg.

szerző

Béres András
Villamosmérnöki szak, mesterképzés
mesterképzés (MA/MSc)

konzulensek

Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Médiainformatikai Tanszék
Moni Róbert
PhD student, Távközlési és Médiainformatikai Tanszék

helyezés

Morgan Stanley I. helyezett

letöltés
10 448 kB