Aggregált kernel alapú képi klasszifikáció

Vizuális tartalmak osztályozása egyike azon képfeldolgozási és gépi tanulási feladatoknak, melyek nem mesterséges körülmények között nehéz problémának tekinthetőek. A téma jelentőségét mutatja a sok kutatási eredmény mellett, hogy az elmúlt évek során számos ipari alkalmazás készült pár éve még kísérleti algoritmusok felhasználásával (akadály detekció autókon, orvosi képi segítő diagnosztikai eszközök, arcfelismerés, infra kamerás hazugságvizsgálat stb.). Természetes fotók esetében az emberi agy általában könnyen megállapítja, hogy a képre jellemző-e valamely tulajdonság, legyen az objektum vagy egy általános fogalom. (nyár, tél, nyaraló emberek, vidám pillanat stb.) Azonban ezen objektumok, fogalmak vizuális változatossága miatt a ma ismert algoritmusok számításigényük ellenére is igen nagy szórással hibáznak. Sok százezer kategória megfelelő pontosságú felismerése rengeteg gyakorlati alkalmazásra adna lehetőséget (például pontosabb, tartalom alapú képkeresés, digitális növény/állathatározó, esemény és környezet felismerése állóképeken, hamisítványok, romlott ételek detektálása stb.), épp ezért az utóbbi években növekvő érdeklődés kíséri a képi klasszifikáció kutatást. Mivel a feladat pontosan meghatározott, így egy-egy megoldás adott körülmények között összehasonlítható más algoritmusokkal. Épp ezért több rangos képi klasszifikációs versenyt is rendeznek immár több mint 5 éve (pl. Pascal VOC [1], ImageCLEF Photo Annotation [2]).

A versenyeken elért eredmények is mutatják, hogy az elmúlt néhány év során a képi klasszifikációs eljárások terén komoly előrelépések történtek. Ennek oka az általános számítási kapacitás megnövekedése mellett a képi low-level leírók majd pedig a bag-of-words módszerek fejlődése. Dolgozatomban bemutatom a state-of-the-art rendszerekben alkalmazott technikákat, mind az alacsony szintű leírók terén, mind pedig a magas szintű, szemantikai leírók terén (például a Gaussian Mixture Model alapú Fisher-vektor [3], vagy a K-means alapú Super-Vector [4]).

Az egyes alapmódszerek a különböző kategóriákban más-más eredményeket szolgáltatnak, célszerű előnyeiket ötvözni. Dolgozatomban ehhez javaslok egy új módszert, amelyben egy egyesített kernel mátrixot készítünk a különböző szemantikai leírókból. Ez az általános megközelítés lehetőséget nyújt arra, hogy tetszőleges modalitásból származó információkat kombináljunk, az egyes kategóriákra optimális módon. A módszer értékeléséhez szükséges a képi klasszifikációban alkalmazott új technikák implementációja is. A kernel aggregáló módszeremet a Pascal VOC 2007 és a Photo Annotation 2011 adathalmazon tesztelem, és az eredményeket összehasonlítom az eddig publikált legjobb eredményekkel.

szerző

Nikházy László
mérnök informatikus
nappali

konzulensek

Daróczy Bálint Zoltán
, MTA SZTAKI (külső)
Dr. Ketskeméty László
, (külső)

helyezés

I. helyezett

letöltés
1 369 kB