Konvolúciós neurális hálózatok alkalmazása valós idejű, biztonságkritikus környezetben jelzőtábla felismeréshez

A jelzőtábla felismerés az autonóm járművek fejlesztésének egyik legfontosabb feladata, melynek kutatásán ma egyaránt dolgoznak egyetemi és ipari csoportok. A probléma egy klasszikus objektum lokalizációs és egy sok kategóriás osztályozási feladatra vezethető vissza, melyben az osztályok gyakorisága kiegyensúlyozatlan.

Jelzőtáblák felismerésére számos szakértői képfeldolgozáson alapuló megoldás született, ám a gépi tanulás, különösképpen a deep learning utóbbi években elért térnyerésének köszönhetően neurális hálózatokkal ma nagyobb teljesítményű és pontosságú számítógépes rendszereket tudunk megalkotni. Az objektum felismerés kihívásaival a konvolúciós neurális hálózatokon alapuló megoldások küzdenek meg a legjobban. Biztonságkritikus rendszerekben azonban a deep learninget alkalmazó feketedoboz jellegű megoldások csak nagy körültekintéssel alkalmazhatók, mivel a bemenetekről megtanult tudásuk ember számára nehezen értelmezhető. Ilyen megoldások továbbá nem elérhetők nyilvánosan, felső és középkategóriás félautonóm járművekben találkozhatunk csak velük.

Munkám célja egy valós idejű, biztonságkritikus környezetben is használható, akár általános célú objektum felismerő kidolgozása, melyet egy konkrét problémára adott megoldáson keresztül mutatok be. Jelzőtáblák felismerésre fókuszálva fejlesztettem le egy full stack webes rendszert, mely egy konvolúciós hálózatokon alapuló objektum felismerő mellett kihasználja a kliens és szerveroldali szolgáltatások nyújtotta lehetőségeket. Munkámban az akár több millió rétegű konvolúciós szűrővel ellátott hálózatok helyett 10-15 rétegű modelleket használok, melyek a felismerés egy jól elkülöníthető részfeladatát látják el. Ennek célja, hogy felhasználjuk a közlekedési táblák jellegzetes kinézetéből származó többlet információt, és átláthatóbbá tegyük a konvolúciós hálózatok döntési folyamatait, miközben kisebb és ezáltal gyorsabb modellekkel tudunk dolgozni.

A modell bemeneteit számos módszerrel normalizálom, a képeken lévő információt hisztogram manipulációs technikákkal emelem ki. Megoldásomban egy ensemble módszert használok, mely során a különböző normalizációs technikákkal feldolgozott képek azokra specifikusan betanított neurális hálózatok bemeneteire kerülnek, majd az eredmény a modellek szavazataiból áll elő. Ezen megoldás előnye, hogy a más információtartalmú képekre specializált modellek egymás hibáit képesek ellensúlyozni, mely egy robosztusabb rendszerhez vezet.

szerző

Balassa Ádám
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Ekler Péter
Docens, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

III. helyezett

letöltés
1 994 kB