Regisztráció és bejelentkezés

Különböző módszerek vizsgálata adathalmazok vektor reprezentációba való átalakításához a felügyelet nélküli aktív tanuláshoz

A mai napig időigényes és drága folyamat új tanító adathalmaz létrehozása neurális hálózatokhoz. Emiatt szeretnénk, ha címkézés során a legrelevánsabb adatpontokat dolgoznánk fel. Erre a problémára szeretnénk egy megoldást találni úgy, hogy egy, még nem címkézett adathalmazból megkeressük a legértékesebb adatpontokat. Az adatpontokat bevett eljárásokkal n-dimenziós vektorokká alakítom. A vektor reprezentáció a hasonló adatpontokat egymáshoz közel, az egymástól különböző adatpontokat pedig egymástól távol helyezi. Ekkor, ha az egymástól legtávolabbi vektorokat választom, akkor a hozzájuk tartozó adatpontok ugyancsak különbözők lesznek és így létre tudok hozni egy diverz részhalmazt az eredeti halmazból.

Ezen munka során megvizsgáltam, milyen vektor reprezentációs eljárásokat érdemes használni. Ahhoz, hogy kezelhető legyen a feladat bonyolultsága és mérete, úgy döntöttem, csak kép és videó adathalmazokat használok. A viszonyítási értékünk a random adatpont mintavételezés. Ezzel ellenőriztem, hogy a lehetséges megoldások hogyan teljesítenek. A legjobb adathalmaz mintavételezést úgy lehet elérni, hogy a címkézetlen adatokat betanítom egy - a jelenleg korszerűbb - felügyelet nélküli klasszifikáló módszerrel. Ebből a betanított neurális hálóból már tudok a címkézetlen képekből egy vektor reprezentációt csinálni. Végül a címkézetlen képek közül kiválasztom azokat, amik egymástól a lehető legtávolabb vannak a vektor reprezentációban.

Az eljárás egyik különlegessége, hogy nem szükséges címke az adathoz, hiszen felügyelet nélküli tanítást használok. Emiatt olyan doméneneken is használható, amihez eddig nem készült adathalmaz. Emiatt ez az módszer eltér a hagyományos aktív tanulási eljárásoktól, mely során már van valamennyi címkézett adat.

A javasolt megoldásokat leteszteltem képosztályozáson, illetve szubjektíven megvizsgáltam autók fedélzeti kamera felvételein. Ezek mellett megvizsgáltam a módszer ipari felhasználásának lehetőségeit is.

szerző

  • Englert Brunó
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Zainkó Csaba
    egyetemi adjunktus, Távközlési és Médiainformatikai Tanszék

helyezés

Morgan Stanley III. helyezett