Képek osztályozása nyitott környezetben

A neurális hálózatok kiemelkedő eredményeket értek el a gépi látás különböző területein. Azonban a legtöbb mélyháló-alapú módszer zárt tesztkörnyezetet feltételez. A dolgozat olyan munkát mutat be, ahol a képosztályozási feladat ki lett terjesztve nyitott tesztkörnyezetekre, és így meg kell különböztetnie, majd el kell utasítania a tanult eloszláson kívüli mintákat (ez egy ún. out-of-distribution (OOD) detection feladat).

Valószínűségi szempontból kétféleképpen tudjuk meghatározni a modell bizonytalanság fokát a cél érdekében. Az egyik módszer a felvehető lehetséges paramétereket korlátozza (weight-space prior), míg a másik a látens térben (a mély neurális háló utolsó-előtti rétegében) beágyazott pontok eloszlását korlátozza (embedding-based prior). Az utóbbi ismerete szükséges, hogy képesek legyünk az ismeretlen eloszlásból származó pontok elutasítására, viszont az előző határozza meg, hogy mi alapján ágyazzuk be az adott pontokat.

Ezek alapján, a TDK munkában a javasolt algoritmus metrika tanulást alkalmaz, ami specifikálja a beágyazás eloszlását. Ezenkívül, a szakirodalomban meglévő módszerekkel interpretálom, hogy a modell milyen jellemzők szerint osztályoz. A dolgozat bemutatja a skálázható probabilisztikus modell használatát az OOD detekcióra; valamint azt, hogy milyen módon lehetne csökkenteni precízebben a modell méretét a tanult eloszláson kívüli pontok jobb felismeréséhez. A javasolt módszer OOD detekciós eredményeit összevetem a szakirodalomban található modellekkel a leggyakrabban használt metrikák mentén. A dolgozat összefoglalja a felhasznált módszerek előnyeit és hátrányait, és további kutatási kérdéseket tesz fel.

szerző

Nguyen Van Phu
Gazdaságinformatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulensek

Dr. Szűcs Gábor
egyetemi docens, Távközlési és Médiainformatikai Tanszék
Németh Marcell
PhD hallgató, Távközlési és Médiainformatikai Tanszék

helyezés

Jutalom