Figyelmi mechanizmus-alapú, kíváncsiság-vezérelt mély megerősítéses tanulás modellek

Az önvezető autókra, mint diszruptív technológiára irányuló mind nagyobb figyelem a mély megerősítéses tanulás jelentős fejlődését hozta magával. A megerősítéses tanulás a mesterséges intelligencia egy, a felügyelt vagy felügyelet nélküli tanulási paradigmáktól lényegileg eltérő területe, mely a környezetével interakcióban lévő ágens számára visszacsatolás révén teszi lehetővé a tanulási folyamatot.

Az emberi tanuláshoz leginkább hasonlító tanulási paradigma valós környezetekben történő alkalmazása számára nélkülözhetetlen az általánosan használható képességek elsajátítása az emberek veszélyeztetése nélkül. Azonban az erre való törekvés korántsem egyértelmű: a rendelkezésre álló ismeretek kiaknázása és az új, a korábbinál jobb viselkedési mechanizmusok megismerésének lehetősége mindenképpen kompromisszum meghozatalát követeli meg. Az előbbi dilemma önmagában is óvatossággal kezelendő, nem is beszélve a valós szituációkban előforduló további nehezítő tényezőkről, mint például a ritkán jelenlévő, vagy nem az optimalizációs célnak megfelelő környezettől kapott visszacsatolásról. A célfüggvény megfelelő optimalizációja számos esetben segíthető olyan kiegészítő jutalmi mechanizmusok definiálásával, melyek jelenléte független a környezettől, az interakció csupán annak mértékét határozza meg. Azonban az korántsem egyértelmű, hogy miként lehetséges ilyen belső mechanizmusok definiálása, melyek az adott feladat esetén minden konfigurációban megfelelően teljesítenek.

A dolgozatban a szakirodalomban található megközelítések áttekintése mellett azok előnyei és hátrányai is elemzésre kerülnek, különös tekintettel az úgynevezett kíváncsiság-alapú modellekre. Erre alapozva új módszerek kerülnek kidolgozásra, melyek elsősorban egy valószínűségi megközelítés, a mély tanulás más területein sikerrel alkalmazott figyelmi mechanizmus alkalmazását járják körül mély megerősítéses tanulás modellekben. A javasolt megoldások segítségével a kíváncsiság-modellek adaptívvá tehetők az ágens állapota és akciói függvényében, továbbá ugyanazon mechanizmus felhasználásával két architektúra, az Actor-Critic és a GAN közötti párhuzam is kiaknázásra kerül.

A javasolt módszerek megvalósítása a Facebook AI Research által gondozott mély tanuló keretrendszerben, PyTorch-ban történt, a reprodukálhatóság biztosítása érdekében az OpenAI standardnak számító tesztkörnyezete, a Gym került felhasználásra, továbbá a teljes forráskód elérhető a GitHub portálon.

szerző

Reizinger Patrik
Villamosmérnöki szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Szemenyei Márton
Adjunktus, Irányítástechnika és Informatika Tanszék

helyezés

I. helyezett