Anomália detektálás logfájlokban gépi tanulással

Az adatok világában élünk. Sok adat keletkezik környezetünkben szenzorokból, közösségi médiából és számos egyéb forrásból. A komplex informatikai rendszerek kivétel nélkül rendelkeznek logfájlokkal, amelyek segítségével pontosabb képet kapunk a rendszerek működéséről, állapotáról és helyzetéről. Ezek az adatok számtalan információt hordoznak melyek nagy értéket képviselhetnek az operátorok számára. Előfordulnak olyan esetek, amikor anomáliákat fedezünk a logadatokban. Anomáliáról akkor beszélünk, ha eddig ismeretlen összetételű vagy sorrendű logsor érkezik. A logsorok egy nagyon fontos tulajdonsága, hogy rendszerint ismétlődő mintázattal rendelkeznek és megoldásomban ezt fogom felhasználni.

A feladatom az anomáliák észlelésével, hogy jelentsük a szokatlan logsor-szekvenciákat. Mivel a rendszerek folyamatosan logol-nak, így hatalmas adathalmaz keletkezik, ami nagyon megnehezíti a manuális feldolgozást, ezért ennek automatizálása elengedhetetlen.

Manapság előszeretettel használnak gépi tanulást problémák automatizált megoldására, ezért a megoldásomban is ezt fogom használni. Ez a módszer egyrészt lehetőséget biztosít az anomáliák detektálására, másrészt egy tanuló folyamatot is, amely képes folyamatosan fejlődni és egyre pontosabb eredményeket prezentálni.

Ezek alapján a TDK dolgozatomban arra vállalkozok, hogy kétfajta megoldást mutassak be az említett problémára:

Az első megoldásom a DeepLog alapú algoritmusból indul ki. Ez egy nagy irodalommal rendelkező és sokak által referenciaként kezelt algoritmus, amely függetlenül a számos gyengeségétől, hatékonynak bizonyult. Ennek az algoritmusnak az implementálására vállalkozom.

A második megközelítés egy új, KNN (K-Nearest Neighbors) alapú eljárás, amely csoportokba rendezhető logfájlok esetén képes anomáliák azonosítására. Ennek az eljárásnak lényegesen szűkebb az irodalma, alig publikáltak róla, különösen a csoportokba rendezhető logfájlok esetén. A KNN alapú megközelítések egyik kulcseleme a megfelelő távolságmetrika megtalálása. A logsor-szekvenciák közötti távolság meghatározására többfajta lehetőséget megvizsgálok, amelyek teljesítményét hasonlítom össze egymással és a mélytanulás alapú megoldással.

szerző

Charaf Kamel
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)

konzulens

Dr. Horváth Gábor
egyetemi tanár, Hálózati Rendszerek és Szolgáltatások Tanszék

helyezés

Morgan Stanley I. helyezett

letöltés
1 421 kB