Q-learning alapú közlekedési lámpa vezérlés

A közlekedési dugók kialakulása sok problémát jelent a városokban, és a növekvő számú autók a helyzeten rontanak.

A sorban állás során az autók sokszor megállnak és elindulnak, amelynek hatására több üzemanyagot égetnek el. Ez a károsanyag-kibocsátás növekedését jelenti, ami a globális felmelegedéshez járul hozzá.

A nem egyenletes vezetés az autó kopásához és megnövekedett üzemanyag használathoz vezet, amik az autó tulajdonosok költségeit növelik.

Az autóban eltöltött idő nem hasznos idő, és a forgalom kiszámíthatatlansága miatt a legtöbben korábban indulnak el, ezzel is több időt veszítve.

Utak bővítése segíti a növekvő igények kiszolgálását, de a városokban a korlátozott hely miatt ez sokszor nem kivitelezhető.

A megoldást az utak jobb kihasználása jelenti, amelynek egyik módja a kereszteződésekben a közlekedési lámpák megfelelő vezérlése.

A közutakra elhelyezett detektorok segítségével rengeteg adatot lehet gyűjteni a forgalomról, és az adatok felhasználásával jobb jelzőlámpa vezérlést lehet megvalósítani, mint a ma használatos fix idejű vezérlések. Azokat a rendszereket amelyek a forgalomhoz igazodva határozzák meg a lámpák vezérlését, adaptív rendszereknek hívjuk.

Ezeket az adatokat felhasználva okosabban tudjuk a zöld és piros lámpák hosszát állítani, hogy azok a forgalomhoz megfelelőek legyenek.

Egy öntanuló algoritmussal egy modell nélküli rendszert hozhatunk létre, amely nem egyszerűsített modellekkel számolja a lámpa időket, hanem a saját tapasztalatai alapján tud döntéseket hozni. Ez a rendszer betanulás után képes a változó forgalomhoz igazodni és a céloknak megfelelő döntéseket hozni.

A megerősítéses tanulás egy öntanuló algoritmus, amelyben egy ügynök, jelen esetben a lámpa és a szenzorok, érzékelik a környezetet, és ez alapján hoznak döntést. A döntésre a környezet jutalommal válaszol és az ügynökünk célja hogy minél több jutalmat halmozzon fel. Eleinte a vezérlés nem lesz optimális, de az ügynökünk próbálgatásokkal megtanulja, hogy milyen helyzetben melyik döntés fogja a legtöbb jutalmat hozni.

Az ügynököt nehéz lenne egy valós kereszteződésen betanítani, ezért egy szimulált környezetet alkalmazunk, amelyet az algoritmusunk irányíthat.

szerző

Hévizi Márton
Villamosmérnöki szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Huszák Árpád
docens, Hálózati Rendszerek és Szolgáltatások Tanszék