Regisztráció és bejelentkezés

Egy újszerű, valószínűség-alapú logikai jellemző kiválasztó algoritmus

A logikai jellemzők számos elterjedt osztályozási és detektálási problémában megtalálhatóak, mint például spam levelek felismerésében, betegségek szűrésében és az online-vélemény alapú piackutatásokban. Az ehhez hasonló adatbázisokban gyakran több ezer jellemző is található, melyek jelentősen megnehezítik a gyors és pontos osztályozást és komoly problémát jelentenek nagy mennyiségű adat ésszerű időn belüli feldolgozásában.

Ehhez a megoldást a jellemző-kiválasztás kínálja, mely csökkentheti az osztályozó algoritmusok futási-idejét és akár a pontosságukat is javíthatja. A jellemző-kiválasztás lényege abban rejlik, hogy megtalálja a jellemzőknek azt a legkisebb halmazát, mely még teljes mértékben modellezi az adott problémát, így csökkentve annak dimenzionalitását, egyszerűsítve az értelmezését és eltávolítva a felesleges információkat. Ily módon a jellemző-kiválasztás csökkenti az osztályozók erőforrásigényét, és a probléma leegyszerűsítésével és az irreleváns részletek eltávolításával akár a prediktív algoritmusok pontosságának javítását is elérheti. Ezen kívül a jellemző-kiválasztás a leggyakoribb módja annak, hogy az adattudósok megállapítsák, mely jellemzők állnak valódi kapcsolatban egy kimeneti változóval, és melyek azok a jellemzők, melyek egyszerűen csak növelik a redundanciát és a dimenzionalitást anélkül, hogy hasznos információkat szolgáltatnának.

Munkánk során egy új, valószínűség-alapú szűrő-megközelítést javasolunk a logikai jellemzők kiválasztásához – ennek teljesítményét kereszt-validációs eljárással értékeljük python környezetben, három különböző osztályozási algoritmus felhasználásával és két korszerű, heurisztikus, szűrő-típusú jellemző-kiválasztási algoritmus vonatkozásában. Megmutatjuk, hogy algoritmusunk felülmúlja a többi jellemző-kiválasztó algoritmust mind a pontosság javítása, mind a futási idő csökkentése tekintetében. Bemutatunk továbbá egy valószínűség-alapú jellemző-pontozási funkciót is, amely – hasonlóan a jellemző-kiválasztó algoritmusunkhoz, mely azt megihlette – teljességgel kompatibilis és könnyen használható a python jellemző-kiválasztó könyvtárával.

szerzők

  • Pašić Azra
    Egészségügyi mérnök szak, mesterképzés
    mesterképzés (MA/MSc)
  • Pašić Lejla
    Villamosmérnöki szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Pašić Alija
    egyetemi adjunktus, Távközlési és Médiainformatikai Tanszék

helyezés

Huawei Technologies Hungary Kft. I. helyezett