Regisztráció és bejelentkezés

Objektum felismerés YOLO mély tanuló algoritmussal

A GPU-k számítási kapacitásának fejlődésével, a rendelkezésre álló adattömeg növekedésével és a gépi tanulás terén elért kutatási eredmények nyomán különösen népszerűvé vált a mély tanulás (Deep Learning). Ezen jellemzően sokrétegű, mély neurális architektúrák ma már szerves részeit képezik a legkorszerűbb rendszereknek különböző tudományágakban, például a gépi látás és a beszédfelismerés (Speech Recognition) területén.

Az objektumfelismerés (Object Detection) a gépi látáshoz és a képfeldolgozáshoz kapcsolódó technológia, mely egy képen vagy videón található, egy adott osztályba tartozó objektumok helyének meghatározásával foglalkozik. Az eljárás számos területen hasznosítható. Például az arcfelismerés közösségi oldalakon népszerű alkalmazása ennek a metódusnak, de elengedhetetlen része az önvezető autóknak a járművek, táblák, vagy gyalogosok felismerésében is. Mozgóképen való objektumkövetéssel jó közelítést lehet adni az adott tárgy sebességére és meg lehet figyelni a mozgását.

Munkám célja egy tetszőlegesen tanítható rendszer implementálása a Keras keretrendszerben, mely képes egy képen található különböző tárgyak felismerésére és lokalizációjára, egyetlen kiértékelés (un. „one-shot”) alapján.

Dolgozatomban először bemutatom a különböző objektumfelismerési algoritmusokat és a YOLO (You Only Look Once) algoritmus verzióit. Ezután ismertetem a COCO (Common Objects in Context) adatbázisban található képek előkészítési lépéseit és a hozzá tartozó címkéket. Ez az adatbázis kb. 108 ezer képet tartalmaz, melyeken 80 különféle, a mindennapi életben körülöttünk lévő tárgyak találhatóak, pl. emberek, madarak, stop tábla, asztal, autók stb. A dolgozat további részében bemutatom a YOLO legújabb verziójának architektúráját és implementációs lépéseit, illetve az azt tanító algoritmust. Ezt követően a leghatékonyabb tanítás elérése céljából különböző hiperparaméter-beállításokat vizsgálok meg. A tanítás során különféle módszereket alkalmaztam, melyek segítik a felismerés pontosságának növelését és a tanítás gyorsítását. Dolgozatom végén eredményeim objektív módon értékelem ki.

szerző

  • Révy Gábor
    Mérnök informatikus szak, alapképzés
    alapképzés (BA/BSc)

konzulens

  • Dr. Gyires-Tóth Bálint
    adjunktus, Távközlési és Médiainformatikai Tanszék