Regisztráció és bejelentkezés

Federált boosting módszerek részben felügyelt tanulásban

A boosting algoritmusok lényege, hogy gyenge modellekből építenek egy olyan együttest, amely már erős tanulóként használható. Ennek során az adatot minden iterációban adaptív módon súlyozza újra úgy, hogy figyelembe veszi, hogy az együttes az adat mely részét képes már megfelelően becsülni. Ezáltal az együttes modelljei más-más reprezentációt alakítanak ki és képesek olyan összefüggések megtalálására, amelyekre egy modell nem.

A federált bioaktivitás predikció egy olyan feladat, ahol több kliens egy közös modellt tanít, amely képes lesz gyógyszer hatóanyag molekulákból megbecsülni, hogy azok mely biológiai célpontra mekkora hatással lesznek. Ez az adat szempontjából egy igen összetett feladat, hiszen nem csak az elosztottság okoz nehézséget, hanem az is, hogy a ma rendelkezésre álló bioaktivitás adatokban jellemző a nagyfokú hiányzás. Annak érdekében, hogy ezeket a hátrányokat ellensúlyozzák gyakran többfeladatos módon végzik ezen modellek tanítását. Azonban a többfeladatos megközelítés saját nehézségeivel jár: Az egyik kulcs probléma, hogy meg kell találni azon feladatokat az adathalmazban, amelyek segítik egymás tanulását és becslését. Erre egy lehetséges megoldás a boosting súlyozása.

A munkám során egy elterjedt boosting megoldást, az AdaBoost algoritmust veszem alapul egy olyan megoldás elkészítéséhez, amely federált módon működik és képes több feladatot kezelni, valamint alkalmas hiányos adatok kezelésére. A FedBoost jelentősége az, hogy képes kihasználni a boosting adaptív adatsúlyozó módszerét arra, hogy feladatok közötti összefüggéseket adaptívan minden iterációban újraértelmezze és más következtetéseket képes levonni így mint a nem együttes alapú modellek.

A dolgozatomban a boosting kapja a hangsúlyt, mindent területnél kitérek a lehetséges boosting megoldásokra, hogy teljes képet tudjak adni a módszer hasznosságáról az egyes feladatokban. Kiemelten foglalkozom ezen kívül a federált tanulás formáival és a többfeladatos tanuláshoz való kapcsolódással, valamint a hiányos adatból való tanulás nehézségeivel. A módszert tehát ezen négy megközelítés mentén értékelem ki: federáltság, többfeladatosság, hiányzás és boosting. Vizsgálom ezen megoldások páronkénti alkalmazhatóságát és prediktív teljesítménybeli különbségeket a kombinációk között. Ahhoz, hogy a módszer teljesítményét megfelelően kontextusba tudjam helyezni összevetem a szakirodalomban ismert más boosting módszerekkel. Végül igyekszem teljes képet adni a FedBoost algoritmus potenciális előnyeiről és hátrányairól az ismert federált algoritmusokhoz képest.

szerző

  • Sándor Dániel
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Antal Péter
    egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

Ericsson Magyarország I. helyezett