Regisztráció és bejelentkezés

Kategorikus változók numerikus behelyettesitési módszerei

Kategorikus adatok kezelése, klaszterezése és felhasználása gépi tanulásos modellekben egy igen nehéz probléma, melyre sok nagyvállalat keres megoldást. A hagyományos, jól bevált metrikák és technikák nem, vagy csak nehezen alkalmazhatóak rájuk és a létező ML eszközök nagy része nem is képes őket kezelni valamilyen numerikus behelyettesítés nélkül. Ennek oka, hogy a legtöbb módszer távolság metrikákkal dolgozik, a távolság pedig nem feltétlenül értelmezhető kategorikus változók között. Egy gyakori megközelítése a problémának, hogy csak a numerikus változókat használják fel az automatizált eljárások során, míg a kategorikusakat külön rájuk tervezett eljárásokkal, vagy egyáltalán nem dolgozzák fel. Ezek a módszerek nyilvánvalóan nagy információ veszteséget képesek előidézni, amit jó lenne elkerülni, hiszen gyakran érdekes és akár kritikus információkat is hordozhatnak ezek a változók, sőt olyan szituáció is elképzelhető, ahol a kategorikus és numerikus adatok valamilyen kombinációja rejti a számunkra értékes információt. A probléma egy másik megközelítése, hogy numerikus értékekre cserélik a kategorikus változókat. Ennek egy gyakran használt módja a one-hot encoding, ez viszont sokszor nagyon nagy mértékben megnöveli a modellek méretét.

A mi célunk a meglévő eljárások áttekintése, összehasonlítása és egy új, gyors és hatékony eljárás kifejlesztése, ami lehetővé teszi a kategorikus változók optimális klaszterezését, sőt akár a közös feldolgozásukat is a numerikus változókkal. Mivel a gépi tanulás egyik legelterjedtebb eszköze a Tensorflow, ezért készül ebben a keretrendszerben is implementáció, ezzel kihasználva a GPU-kban rejlő extra teljesítményt és lehetővé téve az eredmények könnyebb felhasználását a gyakorlatban.

szerző

  • Szalai Márk Dániel
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Horváth Gábor
    egyetemi tanár, Hálózati Rendszerek és Szolgáltatások Tanszék

helyezés

II. helyezett