Decentralizált Multi-Agent megoldások a forgalomirányításban

A metropoliszok növekvő népessége a forgalom sűrűségének növekedését is eredményezi, mely a forgalom torlódásához, és balesetveszélyes helyzetekhez vezet, ezáltal komoly városüzemeltetési probléma. A forgalomirányítás optimalizálására a közlekedési lámpák hangolásával gazdasági és ökológiai szempontból is szükség van, a megfelelő minőségű városi élet biztosítása érdekében. Bár a vezérlőrendszerek folyamatos fejlődésen mennek keresztül, az általánosan használt fogalomirányító rendszerek nem képesek reagálni a forgalom dinamizmusára. A dolgozat célja egy olyan előremutató, azonnali beavatkozásra képes, gépi tanuláson alapuló forgalomirányító rendszer kivitelezése, mely a jövőben alkalmas lehet a jelenleg használatban levő módszerek bővítésére illetve helyettesítésére.

A forgalom szimulálása a SUMO nevű mikroszkopikus közlekedés szimulációs szoftver használatával történt, vizuális GUI felületén valós időben követhető a forgalom lefolyása, valamint a lámpaciklusok változása. A szimulációt saját OpanAI Gym környezetbe építettem be az egyszerű felhasználhatóság és fejleszthetőség érdekében.

A gépjárműforgalom saját készítésű, különböző erősségű dinamikát követ, melyet egy és négy csomópontos úthálózatokon alkalmaztam. Elsőként a legegyszerűbb egy csomópontos úthálózaton próbáltam ki több Q-learning alapú modellt, nevezetesen a Deep Q-Network, Double Deep Q-Network, Dueling Deep Q-Network és a Double Dueling Deep Q-Network (D3QN). A Q-learning a megerősítéses tanulás körébe tartozik, mely egy célorientált gépi tanulási technika. A környezetben egy lépés egy másodperc, az ügynök minden lépésben dönthet az aktuális lámpa fázis hosszabbításáról, illetve megszakításáról. A modellek betanítása során több különböző, összesen hat jutalmazási függvényt vontam be az elemzésbe, majd az eredményeket egy külön erre a célra létrehozott teszt szakaszban értékeltem ki a CO2 kibocsátás, várakozó járművek számának és a várakozási időnek a mérésével.

Az egy csomóponton végzett tanítás során a D3QN architektúra érte el a legoptimálisabb értékeket mind a tanulási dinamikát, mind a tesztelés során mért mérőszámokat tekintve. A jutalmazási függvények közül három kizárásra került nem megfelelő teljesítmény miatt. A szűkített modellel és jutalmazási függvényekkel a négy csomópontos úthálózaton vizsgáltam többféle multi-agent módszert, az egy csomóponton tanított modell kihelyezését több csomópontra, az egymástól függetlenül tanított ügynököket, valamint különböző mértékű információmegosztással tanított ügynököket. A dolgozat során több tanulási konvergenciát elősegítő módszer is tesztelésre került, úgy mint a megosztott memória, lokális és globális jutalom, fingerprinting, adat normalizálás, random search hiperparaméter optimalizálás. A négy csomóponton tanított modellek bővített tesztelési fázison mentek keresztül, melyben több különböző forgalmi dinamika mellett is megvizsgáltam az eredményességüket. Baseline modellként egy fix időtartamos forgalomirányító rendszert készítettem, melynek fázis időtartamait az úthálózat adottságaihoz igazítottam.

Kutatásom eredményei alapján arra lehet következtetni, hogy egy csomópontos úthálózat esetén a súlyozott utazási szám maximalizálás, míg négy csomópontos úthálózat esetén a sorhossz minimalizálás és átengedő képesség maximalizálás a legcélravezetőbb jutalmazási függvény. Ezen felül érdemes kiemelni, hogy az eredmények alapján a teljes mértékben gépi tanulás alapú forgalomirányítás néhány esetben kiszámíthatatlanul viselkedhet, mely nem megengedhető biztonsági szempontból. Ennek ellenére a jelenleg használt módszerek bővítéseként, valamint jövőbeli fejlesztésével alternatívájaként is használható lehet.

szerző

Pálos Péter
Kognitív tanulmányok mesterképzési szak (MSc)
mesterképzés (MA/MSc)

konzulens

Dr. Huszák Árpád
docens, Hálózati Rendszerek és Szolgáltatások Tanszék

helyezés

II. helyezett

letöltés
2 124 kB