Gráfadatbázisok teljesítményének vizsgálata valóélet-beli tudásbázison és lekérdezési mintákkal

Megnézve az elmúlt évek „hype ciklusait”, azt tapasztalhatjuk, hogy a meglehetősen nagy fluktuáció ellenére vannak olyan elemek, melyek valamilyen formában folyamatosan jelen vannak az aktuálisan divatos, nagy potenciállal rendelkező technológiák között. Ilyen elem például a nagyméretű szemantikus hálók koncepciója, ami néha tudásgráfként vagy tudásbázisként, máskor szakértői rendszerként, megint máskor természetes nyelvű kérdés megválaszolásként hosszú évek óta fel-felbukkan a vezető előrejelzésekben, ami jól mutatja a téma fontosságát és aktualitását.

Manapság már természetes gondolatként adódik, hogy a hatékony kezelés érdekében ezen nagyméretű adathalmazokat adatbázis-kezelő rendszerekben tároljuk, azonban a kitűzött nemfunkcionális célok elérését szem előtt tartva a megfelelő implementáció kiválasztása már közel sem ennyire magától értetődően egyszerű feladat, ugyanis az elmúlt évek NoSQL forradalmának eredményeként újabb és újabb adatbázis technológiák jelentek meg vagy éledtek újjá. Ezen alternatív technológiák egyik fő irányát a gráfadatbázisok alkotják, amik jellegükből adódóan nyilvánvaló választásnak tűnhetnek tudásgráfok tárolására.

A megfelelő implementáció mellett a másik döntő faktor, ami egy rendszer valamennyi nemfunkcionális paraméterét lényegesen befolyásolja, a legmegfelelőbb logikai modell kiválasztása. Tudásgráfok esetében ez elsőre magától értetődőnek tűnik, ám, ha reifikációt is támogat a tudásbázisunk, a modellezés kulcskérdésévé a metaállítások tárolásának mikéntje válik, azaz a reifikációs módszer megválasztása. A legtöbb modellezési problémához hasonlóan a reifikációra is számos lényegileg különböző megoldás ismert, melyek spektrumát tovább tágítják az egyes NoSQL adatbázis-kezelők adatmodelljei között rendszerint megtalálható különbségekből adódó lehetőségek.

Dolgozatomban több különböző szempont szerint összehasonlítom a jelenleg népszerű, rendszerint koncepcionálisan eltérő gráfadatbázisokat valós szemantikus hálókon, valódi felhasználók által megfogalmazott lekérdezési minták alapján. Az összehasonlítás kiterjed az adatbázis-kezelők válasz idejére, betöltési idejére, tárhelyigényére és skálázódására, illetve skálázhatóságára eltérő logikai reprezentációs modellek mellett. Az eredmények alapján láthatóvá válnak az egyes rendszerek erősségei és gyengeségei, amik alapján meghatározható, hogy egy konkrét cél elérése érdekében, mint például leggyorsabb válaszidő, legkisebb tárhely stb., melyik implementáció-modell páros az optimális választás.

szerző

Kovács Tibor
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Simon Gábor
ügyvivő szakértő, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

III. helyezett

letöltés
4 036 kB