Többnézetű objektumdetektálás NeRF és YOLO segítségével

Mély neurális hálózatokat már régóta alkalmaznak gépi látási feladatokra. E terület egyik legfontosabb alkalmazása az objektumdetekció, ahol a legújabb modellek már megközelítik az emberi teljesítményt. Az objektumdetekciónak azonban vannak még kevésbé vizsgált területei. A legtöbb korszerű modell egyetlen nézetből származó bemenetet használ, és gyakran rosszul teljesít részben vagy teljesen eltakart objektumok esetén. Ezen gyengeségek javítására még nagyrészt felfedezetlen terület a több nézetet felhasználó modellek alkalmazása.

Máshonnan közelítve a problémát számos eredmény született komplex 3 dimenziós jelenetek neurális hálózatokkal történő reprezentálásában, az úgynevezett Neural Radiance Field vagy NeRF modellekkel. Ezen modelleknek kezdetben több száz bemeneti nézetre és több napnyi tanításra volt szükségük egyetlen jelent reprezentálásához. További fejlesztésekkel ilyen feladatok ma már általánosításra képes hálózatokkal oldhatók meg, amelyek kevés bemeneti nézetet használnak, és a kezdeti betanítás után csupán rövid következtetési időt igényelnek. Az új modellek azonban még nem igazán bizonyultak hasznosnak gyakorlati alkalmazások tekintetében.

A Tudományos Diákköri Konferenciára szánt munkámban arra törekszem, hogy kombináljam ezt a két módszert. Kutatásom célja egy NeRF modellre épített objektumdetekciós neurális hálóval és több bemeneti nézet felhasználásával javítani az objektumdetektálás teljesítményét, különösen olyan esetekben, amikor az objektumok részben vagy teljesen takarásban vannak, és a több nézet hasznos információval szolgálhat. Ezt az új megközelítést egy konkrét feladatra alkalmaztam: önvezető autók (és vezetéstámogató rendszerek) esetén a közúti kereszteződésekben történő objektumfelismerés javítására.

A cél eléréséhez egy nemrég publikált PixelNeRF című cikkben bemutatott módszert használok. Ezt a modellt arra tervezték, hogy néhány bemeneti képből új nézeteket rendereljen egy 3D-s jelenetről, kizárólag feed-forward módon. Megoldásomban ugyanezt a modellarchitektúrát használom, és az RGB kimenetet egy YOLO objektumdetektáló réteggel helyettesítem. Így a neurális 3D reprezentáció beköthető egy objektumdetektáló rétegbe, amely így feltételezhetően pontosabban tudja predikálni az objektumok bounding boxait, még az eredeti nézeti irányból teljesen kitakart objektumok esetében is. A modell célja, hogy az RGB vizualizáció helyett az objektumok térbeli helyzetét és méretét tanulja meg.

A feladathoz Blenderben létrehoztam egy szintetikusan generált adathalmazt (ami nagyszámú takarásban lévő objektumot tartalmaz), implementáltam az új modellt (a PixelNeRF és a YOLO architektúrákból kombinálva), betanítottam a modellt és kiértékeltem az eredményeket. Végül összehasonlítottam az eredményeket a jelenlegi legkorszerűbb YOLO objektumfelismerő modellel.

szerző

Kőfaragó Nándor
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Szemenyei Márton
Adjunktus, Irányítástechnika és Informatika Tanszék

helyezés

I. helyezett

letöltés
8 329 kB