Adatelemzési folyamatok diagnosztikája és adatminőségérzékenység-elemzése

Napjainkban egyre több az informatikától és a statisztikától korábban jórészt független szakma alkalmaz adatelemzést. Az adattárolás és feldolgozás fajlagos költségének csökkenésével egyre nagyobb mennyiségű és egyre nagyobb sokféleségű adaton végeznek elemzéseket, sokszor olyan szakemberek, akiknek fő szakterülete az adatminőség értékeléstől és javítástól igen messze esik. Mindeközben a heterogén forrásból származó, jellemzően tisztítatlan adatok által jelentett kockázatok jelentősége nem csökkent. A feldolgozási és elemzési folyamat érzékeny lehet a bemeneti adatok hibáira, valamint a szakértői feltételezések ellenőrzését is igényli. Ezt a feladatot nehezíti, hogy az adatok szerkezete és adott esetben az adatok forrása is időben változhat.

Az adatok rendszerezése, tisztítása és elemzése ma már gyakran adatelemző munkafolyamatok segítségével történik, melyek kezelését grafikus eszközök (pl. Rapid Miner, Knime) támogatják az adatelemzésben kevésbé jártas felhasználóknak is.

Amennyiben a feldolgozás / adattisztítás lépései során nem sikerül kiküszöbölni az összes adathibát, akkor ezek torzíthatják az adatelemzési lépések (pl. interaktív vizuális analízis, statisztikai módszerek) kimenetét. Ugyanakkor ezek a hibák sokszor kivédhetőek további adattisztító és konzisztencia-ellenőrző lépések beiktatásával, amelyek megakadályozhatják a hibás értékek továbbterjedését az adathibákra érzékeny lépésekig.

A dolgozat keretein belül megterveztünk egy ontológia alapú metamodellt, mely általános adatfeldolgozó folyamatokat ír le. Létrehoztunk reprezentatív példa adattisztító és adatelemző folyamatokat egy erre alkalmas grafikus eszközben (Rapid Miner) és biztosítottuk a folyamatokból (ontológia alapú) példánymodellek generálását. A téma szakirodalmának tanulmányozása alapján megalkottunk egy adathibákat leíró taxonómiát. Az adathibák terjedését leíró szabályokat definiáltunk az adatfeldolgozási, -tisztítási és -elemzési folyamatok különböző típusú lépéseire, és megvizsgáltuk, hogy mely lépés mely adathibákra érzékeny és hogyan tehető robusztussá. Példát adtunk arra, hogy a vizsgált környezet modelljének ismerete hogyan segítheti az adatok konzisztencia- és teljességellenőrzését.

Hibaterjedés alapú eszközt és módszert dolgoztunk ki, melyhez a fenti folyamatokból automatikusan komponens alapú hibaterjedési modelleket állítottunk elő. A vizsgálathoz megalkottunk egy általános komponens leíró modellt, amellyel más típusú rendszerek is leírhatóak. Megvalósítottunk egy eszközt, amely a generált modellen korlátkielégítési programozás alapú hibaterjedés vizsgálatot hajt végre, és képes felderíteni a lehetséges hibaokokat és jelenségeket a folyamatban, visszavezetve ezeket az eredeti modell szintjére. Az elkészült rendszerünk ezáltal képes rámutatni a folyamat azon lépéseire, ahol további ellenőrzésekre vagy adattisztításra van szükség.

A dolgozatban egy összetett felhő alapú alkalmazás teljesítmény és szolgáltatásbiztonsági mérési adatainak feldolgozásán és kezdeti elemzésén keresztül mutatjuk be módszerünk gyakorlati alkalmazhatóságát.

Eredményeink közvetlenül segíthetik adatelemzési projektek hatékony tervezését azáltal, hogy szisztematikus módon javaslatot teszünk bemeneti adatok és a köztes számítások hibáinak kiszűrésére a mért rendszer modelljének figyelembevételével. Ezzel időigényes és szakértői tudást igénylő munkát váltunk ki és segítjük, hogy az elemző a lényegi problémák felderítésére koncentráljon. A megközelítésünk független az analízis során használt eszközöktől.

szerzők

Szilvásy Noémi
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)
Urbán Balázs
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulensek

Dr. Gönczy László
docens, Méréstechnika és Információs Rendszerek Tanszék
Dr. Kocsis Imre
adjunktus, Méréstechnika és Információs Rendszerek Tanszék

helyezés

II. helyezett

letöltés
4 079 kB