Regisztráció és bejelentkezés

Objektum lokalizálás képeken mély neurális hálóval

A 21. századra az egyik legértékesebb erőforrásunk az adat lett. Az élet folyamatos gyorsulásának, az egyre több eladott technikai eszköznek, az ezekre épülő szolgáltatások folyamatos bővülésének és az új vállalati és felhasználói szokások kialakulásának következtében egyre több adat keletkezik a világban. Ezek kezelése sok technológiai, etikai, jogi és gazdasági kérdést vet fel, amelyek közül számos még megválaszolásra vár, és a következő évek várhatóan újabb kihívásokat állítanak elénk. Mérnök informatikus hallgatóként dolgozatomban a téma egyik technológiai oldalát, az adatelemzést, azon belül pedig a képi adatok elemzését vizsgáltam.

A feladatom megvalósítása során egy olyan neurális háló alapon működő rendszert terveztem és implementáltam, amely nagyszámú, szemantikus információkkal felcímkézett kép - mint tanuló állomány - segítségével ismeretlen fényképeken felismeri, és lokalizálja a különböző objektumokat.

A rendszer megvalósításához a YOLO (You Only Look Once) objektum lokalizációs rendszerből indultam ki. Ez a C-ben és CUDA-ban íródott Darknet nevű neurális háló keretrendszer része, és jelenleg az egyik legpontosabb és leggyorsabb megoldást adja az objektumok képeken és videókon történő lokalizációjára. Gyorsaságát annak köszönheti, hogy a klasszikus megoldásokkal (pl. R-CNN) szemben úgynevezett single shot detection-t használ. Ez azt jelenti, hogy nem kell egy külön neurális hálót használnunk arra, hogy megtaláljuk a potenciális objektumok befoglaló téglalapjait, majd egy másikat arra, hogy minden egyes téglalaphoz tartozó képrészletet végigfuttatva a hálón megmondjuk, hogy az milyen objektumot tartalmaz. Ezzel szemben elég egy neurális hálót használni, amin csak egyszer kell végigfuttatni a képeket.

A dolgozatomban bemutatom a képeken történő objektum felismerés és lokalizálás szakirodalmát, majd az általam elkészített, YOLO alapú rendszer implementációját, betanítását és finomhangolását. Emellett ismertetem mérési eredményeimet: a létrehozott rendszeren megmértem az objektum felismerés, illetve lokalizáció pontosságát különböző képhalmazokon.

szerző

  • Bereczki Márk
    Mérnök informatikus szak, alapképzés
    alapképzés (BA/BSc)

konzulens

  • Dr. Szűcs Gábor
    egyetemi docens, Távközlési és Médiainformatikai Tanszék

helyezés

III. helyezett