Súlymátrix-alapú, sztochasztikus regularizációs technikák vizsgálata mély neurális hálózatokban

A mára széles körben elterjedt általánosan használható grafikus feldolgozóegységek (Graphics Processing Unit, GPU) megjelenése óta a gépi tanulás alapú mesterséges intelligencia egyre nagyobb figyelmet kap. A gépi tanulás tudományterülete által biztosított modellek számos, jellemzően expliciten nem megfogalmazható probléma esetében hatékony megoldást jelentenek.

A negyedik ipari forradalom óriási mennyiségű adatot bocsátott a szakemberek rendelkezésére. A szélesebb körű hozzáférhetőség pedig hozzájárult ahhoz, hogy a modellek általánosítóképességének finomhangolása hangsúlyosabbá váljon - ez ugyanis bizonyos esetekben jelentős javulást jelent az adott problémát tekintve.

A mesterséges intelligencia témakörének utóbbi években legnagyobb figyelmet kapott ága talán a mély tanulás, mely jellemzően komplex számítási gráfokat, neurális hálózatokat alkalmaz. A komplexitás habár hozzájárulhat a jobb eredmények eléréséhez, a bonyolult modellek viselkedése sok esetben azonban nem írható le egzakt módon. Ebből kifolyólag az általánosítóképességet tekintve is problémákba ütközhetünk, mely hiányát túltanulásként említ a szakirodalom.

Dolgozatom témájaként azt a feladatot tűztem ki célul, hogy új típusú regularizációs eljárásokat vizsgáljak meg és dolgozzak ki a mély tanulás számára. Munkám során közvetlenül a neurális hálózatok együtthatóit, a súlymátrixokat vizsgálom.

A dolgozatban áttekintem a jelenleg széles körben alkalmazott módszerek, melyek között számos empirikus eljárás szerepel. Ezt követően javaslatot teszek új típusú regularizációs eljárásra és több szempontból elemzem azt.

Az eljárás lényege a következő: gyakran találkozunk additív zajjal neurális hálózatok esetében, ezzel ugyanis esetenként a folyamatot jellemző valószínűségi eloszlás jobb közelítése érhető el. A rendelkezésre álló minták ugyanis előfordul, hogy nem reprezentatívak, mivel a mögöttes folyamat általában nem teljesen megfigyelhető.

Jelen munka hipotézise, hogy valamilyen módon korrelált zajjal történő beavatkozás a korábbi eljárásoknál jobb eredménnyel szolgálhat.

Két módszer kerül részletes elemzésre, az első egy ritka sztochasztikus maszkot alkalmaz annak érdekében, hogy a finom, nem általános jellemzőket korrigálja. A második eljárás egy entrópia-invariáns művelet, amely a mátrixokon belül feltételezett lokális korrelációt használja ki.

A dolgozat második részében a kidolgozott regularizációs eljárások teljesítményét elmezem és értékelem ki. Munkámat összefoglalással zárom.

Az eljárások megvalósítása, ill. azok validációja a Facebook AI Research (FAIR) által fejlesztett, ingyenesen elérhető, nyílt forráskódú PyTorch mély tanuló keretrendszerrel, ill. annak kiegészítő moduljával (Ignite) történt.

szerző

Reizinger Patrik
Villamosmérnöki szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Médiainformatikai Tanszék

helyezés

Morgan Stanley I. helyezett