Regisztráció és bejelentkezés

Adathalmazok minőségének jellemzése, predikció magyarázó eszközök segítségével

A gépi tanulási módszerek, különösen a mély neurális hálók egyre több területen érnek el nagyon biztató eredményeket, nagyságrendekkel maguk mögött hagyva a hagyományos megoldásokat. Az alapjuk ezeknek a módszereknek hasonló az agy működéséhez, a rendszer nagy mennyiségű mintapélda alapján alakít ki egy belső hálózatot amivel aztán később még nem tapasztalt bemeneteket is kezelni tud. Az eredmények alapján nagyobb komplexitású problémák válhatnak így megoldhatóvá, mintha valamilyen döntési logika konkrét kézzel történő definíciójával. Ugyanakkor mivel ezen rendszerek belső működésüket tekintve fekete dobozok nehézkessé válik az alkalmazásuk kritikus rendszerekben. Kritikus környezetben történő alkalmazás esetén jelentős részében nem elegendő a megoldásunk pontosságát egy teszt adathalmazon vett kiértékelésre alapozni, ugyanis ez alapján csak igen korlátozott garanciák vállalhatók az újonnan érkező bementek alapján előállított döntésekre.

Az adathalmazoknak kimondottan jelentős szerepe van gépi tanulási módszereknél, ezek minőségén nyugszik mind a tanulás által elérhető pontosság és a teszt adathalmaz által előállított eredmény valódisága. Bár az adathalmazoknak kimondottan fontos szerep van kiértekésük nem kap ennek megfelelően magas szerepet. A célunk az adathalmazok minőségének kiértékelésénél használt megoldások javítása volt predikció értelmező eszközök által generált metrikák felhasználásával. Az adathalmazok alapvetően magukra vetített mennyiségi metrikákat tartalmaznak, mint az adott csoportok darabszáma, elemek minősítésének pontossága. További alkalmazott módszer a különböző adathalmazok összehasonlításán alapuló kimutatások, ezek valamilyen becslést adhatnak teljes domain lefedettségéről. Ugyanakkor minden új adathalmaz az előzők javításra törekszik, ezért felmerülhet a kérdés mennyire maradunk hűek az eredeti problémához.

Egy adathalmaz kiértékelés során az első fontos kérdés a domain meghatározása, milyen feladatra szeretnénk felhasználni később, eközben milyen bemeneti és kimeneti értékek fognak előfordulni. Ennek a leírása egyáltalán nem egyértelmű, ezért a témát leszűkítettük olyan speciális terültekre amelyek sokfélesége még leírható különböző követelmények segítségével. A végkimenete a módszernek az adathalmaz változatosságát jellemző metrikák a definiált követelmények alapján. A predikció magyarázó eszközök ezen metrikák előállításában segítenek azáltal hogy egy képet adnak a modell bizonyos indokairól egy adott döntésnél.

A módszer demonstrációjához a jelzőtábla felismerés feladatot választottuk. Ez a terület sokféleségre vonatkozóan megfogalmazhatók követelmények, például a képek készítésekkor a fényviszonyok, évszak, kamera látószöge, tábla elforgatottságának mértéke. A kiértékelésben valamilyen szinten mindenképpen közrejátszik milyen modellt használunk fel hozzá, azonban alapvetően adatbázisok közötti relatív értékek az eredmények, valamint végső soron minden modellt limitál valamilyen mértékben az adathalmaz. A kiértékelés során kiderült az új módszer segítségével pontosabb, részletesebb metrikák voltak előállíthatók. Ezáltal magabiztosabbak lehetünk egy adott modell felhasználhatósági kereteit illetően.

szerző

  • Szántó Tamás
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Micskei Zoltán
    egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék