RGB-D képsorozat relokalizációja inverz neurális radiancia mezők segítségével

A számítógépes grafika, a gépi látás, valamint a robotika számos, mostanra már hagyományosnak mondható térreprezentáló módszert alkalmaz. Ilyenek például a háromszöghálók, pontfelhők vagy az előjeles távolság mezők. A közelmúltban megjelent egy diszruptív irányzat, a neurális radiancia-mezők (NeRF, Mildenhall et al. 2020) alkalmazása térrekonstukcióra, mely különböző problémák megoldását teszi lehetővé. Segítségével rekonstruálhatóak statikus terek mindössze néhány kép alapján, szerkeszthető videók tartalma, és javítható rossz fényviszonyok között készült képek minősége. Hetente jelennek meg cikkek arról, hogyan lehetne ezt az új irányt továbbfejleszteni, gyorsítani, és mik a további felhasználási lehetőségei.

Neurális hálókat illesztenek egy olyan implicit leképezés reprezentálására, ami a tér minden pontjára és nézeti irányára megadja az áthaladó RGB sugársűrűséget, illetve a pont volumetrikus sűrűségét. A tanításhoz mindössze néhány képre van szükség, ismert transzformációkkal. A számítógépes grafikában közismert volumetrikus képalkotáson keresztül egy ilyen leképezéssel adott nézeti irány és pozíció alapján tetszőleges pozíciójú új kép rekonstruálható. A volumetrikus képalkotás differenciálhatóságának köszönhetően ez a leképezés megfordítható. A betanított modell segítségével egy optimalizálási probléma eredményeképp egy kép transzformációja is kifejezhető.

Kutatásunkban bemutatjuk a NeRF-k alkalmazhatóságát a robotikában ismert relokalizáció problémájára, mely során statikus teret reprezentáló NeRF-ek segítségével keressük monokuláris kamerákkal készített képek pozícióját és orientációját. Az ötlet aktív kutatás témája, de ismeretünk szerint mi vagyunk az elsők, akik ismert relatív transzformációkkal ellátott RGB-D kép szekvenciákat használunk NeRF-kel való relokalizációra.

Ennek hátterében az áll, hogy a mélységtérképek eltéréseiből származtatott veszteségfüggvények gradiensei jóval simábbak, mint a csak egyszerű RGB pixeleket használó veszteségfüggvények gradiensei, melyek tipikusan elég zajosak és mintaigényesek. A NeRF-k alapján történő képalkotás során valós mélység-adatokat is tudunk rekonstruálni intenzív többlet számítások nélkül, így RGB-D kamera alkalmazásával sebességcsökkenés- mentesen növelhető a konvergenciatartomány.

Megmutatjuk továbbá, hogy több kép alapján történő pozíció illesztésével (bundle adjustment) javítható a becslés robusztussága, hibatűrése. A megközelítés alkalmazhatósága abból adódik, hogy vizuális odometriában gyakran képsorozatok állnak rendelkezésünkre, amelyek közötti elmozdulások becslésére többféle szenzorfúziós megoldást használhatunk. Ezen relatív transzformációk apró hibái idővel felgyülemlenek. Az így keletkező jelentős hibákat relokalizációval kell eliminálni.

Végezetül leírjuk, hogy a javasolt rendszerben hogyan kezelhetőek dinamikus objektumok, amelyek az eredeti NeRF tanítását félrevihetik, illetve rontják a relokalizáció pontosságát, megbízhatóságát.

szerző

Csehi Ágoston
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulensek

Dr. Józsa Csaba Máté
Research Scientist, Nokia Bell Labs (külső)
Dr. Lengyel László
egyetemi docens, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

Continental Automotive Hungary Kft II. helyezett

letöltés
1 609 kB