Keresési hatékonyság növelése nagyon nagy méretű malware adattárakban

Kártékony programok már évtizedek óta fenyegetnek mind komplex, üzleti, mind egyszerű, otthoni informatikai rendszereket. Az elmúlt néhány évben ez a trend mobil és beágyazott rendszerekre, valamint a tárgyak internetére is kiterjedt.

Napjainkban a szignatúra alapú detekciós eljárások a legelterjedtebbek. A szabályokat túlnyomó részt automatizált renszerek állítják elő, olykor szakértő malware elemzők bevonásával. Mindkét esetben szükség van egy referencia mintához hasonló fájlok kigyűjtésére az antivírus gyártó adattárából, mivel olyan szabályt érdemes készíteni, mely illeszkedik a malware család minél több taggjára.

Hasonlósági keresés ilyen nagy adattárakban nehéz feladat. Még a kicsinek mondható antivírus gyártók is több szár gigabájt új malware mintához jutnak naponta belső hálózatukon keresztül. Ezek idővel néhány petabájtot is elfoglalnak. A naív fájlt fájllal való összehasonlító keresési módszer a nagy mennyiségű kiolvasandó adat miatt nem skálázható. Másik módszer lehet minden fájlt statikus és dinamikus elemzés alá vetni, az összehasonlítás pedig az előálló riport mezőin történne. Bár ez a módszer meggyorsítja a keresést, nagy erőforrás igénnyel rendelkezik, mivel minden beérkező fájlon el kell végezni az analíziseket, így ismét nem skálázható.

Ezt a kihívást hasonlósági hash eljárással, ezek közül is TLSH eljárással oldjuk meg. TLSH hash értékek előállításához mindössze egyszer kell végig haladni a bemeneti fájl bájtjain, így a futásidő szinte megegyezik a háttértár olvasási sebességével. Az előálló hash mindössze 35 bájton eltárolható, mely hatalmas nyereséget jelent a riportokkal szemben. Két hash érték összehasonlítása kevesebb, mint egy mikroszekundum alatt elvégezhető. Az előálló szám jellemzi a két bemeneti fájl hasonlósági mértékét. Mindezek alapján ez az eljárás megfelelő alapnak bizonyul a hasonlósági keresés implementálására.

A munkában belátjuk, hogy a TLSH megfelelő küszöböt választva megbízhatóan jelzi malware minták hasonlóságát, hamis detekciók nélkül. Részletesen jellemezzük a megoldás egy 700TB-os malware adattáron történő implenetálását és annak eredményeit. Az adatbázist a hasonlósági csoportokba rendezzük, hogy minden csoport néhány jellemző elemét kiválasztva tovább gyorsítsuk az eljárást.

szerző

Tamás Csongor
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Buttyán Levente
egyetemi tanár, Hálózati Rendszerek és Szolgáltatások Tanszék

helyezés

Morgan Stanley I. helyezett