Regisztráció és bejelentkezés

Szemantikus szegmentációs maszkkal vezérelt képgenerálás diffúziós modellekkel

A mély neurális hálózatok forradalmasították a képgenerálást, mellyel olyan szerteágazó területeken találkozhatunk, mint a művészetek, szórakoztatóipar, orvostudomány, vagy önvezető rendszerek fejlesztése. A generatív mesterséges intelligencia módszerek közt egyre nagyobb teret hódít a diffúziós alapú megközelítés. Ennek alapgondolata egy zaj predikcióra képes modell betanítása, amely ezután inferencia időben iteratívan képes új képeket előállítani normál eloszlású zajból. Számos fejlesztés célozta meg a vezérelhetőség javítását, a legfejlettebb megoldások többnyire “text2image” alapon működnek, szövegbemenet segítségével irányítva a képgenerálást.

Kihívást jelent azonban a modellek hatalmas mérete, komplexitásuk miatt átlagos felhasználók számára sokszor elérhetetlenek ezen módszerek. Továbbá, a szöveg-vezérelt bemenetek nem nyújtanak teljesen explicit kontrollt a jelenetek felett, különösen olyan esetekben mikor az objektumok relatív pozícióját szeretnénk meghatározni adott képen belül. Munkámban ezen limitációra egy szemantikus szegmentáció alapú kontroll mechanizmus bevezetésével mutatok megoldást.

Kísérleteimet önvezető rendszerek területére öszpontosítottam, ahol hatalmas igény van sokszínű, azonban sokszor nagyon specifikus tanítóadatra. Az adatgyűjtési folyamat, különösen ritka jelenetek esetében - pl. közvetlen baleset előtti objektum elhelyezkedések - kihívást jelent elérhetőségben és költséghatékonyságban egyaránt. A dolgozatomban szemantikus szegmentációs maszkokat használtam a modell kondicionálására. A Berkeley Deep Drive adathalmazt használtam fel, mely közlekedési jeleneteket tartalmaz szemantikus szegmentációs annotációkkal kiegészítve. Az eredmények alátámasztották a feltételezést, miszerint a maszk alapú vezérlés működik és a megvalósítás felskálázása sok lehetőséget hordoz magában. Továbbá szempont volt, hogy az implementáció kompakt és letisztult legyen, ezzel lehetővé téve, hogy egy átlag felhasználó is megértse a módszert, kipróbálja, és nem utolsó sorban alkalmazza a saját egyedi problémáira, ötleteire a generatív képgenerálás területén.

szerző

  • Bozsó Katica
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulensek

  • Dr. Gyires-Tóth Bálint
    adjunktus, Távközlési és Médiainformatikai Tanszék
  • Béres András
    doktorandusz, Távközlési és Médiainformatikai Tanszék

helyezés

I. helyezett