Dimenziócsökkentési eljárások elosztott megvalósítása Hadoop platformon

Az elmúlt évtizedben az elektronikus adattároló eszközök tárkapacitás tekintetében hatalmas fejlődésen mentek keresztül, miközben áruk egyre csökkent, így egyre több és több adat kerül tárolásra a vállalatok mindennapi tevékenysége során. Ahhoz, hogy ezen adattömegből kézzelfogható és valóban hasznos információhoz jussunk, meg kell látni a bennük rejlő rejtett összefüggéseket. Erre a hagyományos adatfeldolgozó és adatelemző módszerek csak korlátozottan vagy egyáltalán nem alkalmasak, hiszen – ha képes is eredményt produkálni az adott eljárás – a számítás olyan sok időt vehet igénybe, hogy az eredmények sokszor már nem aktuálisak.

Az adatgyűjtés felgyorsulásának közvetlen következménye, hogy sokszor kevés új információt tartalmazó adatok is tárolásra kerülnek. A statisztikában, képfeldolgozásban vagy a gépi tanulás területén régóta használnak olyan módszereket melyek automatikusan, a szakterület ismerete nélkül képesek elkülöníteni a hasznos dimenziókat a kevésbé hasznosaktól. Ilyen például a főkomponens-analízis technikája (PCA) és az attribútumok közötti hasznossági sorrend felállítására hívatott úgynevezett feature ranking eljárások is.

Dolgozatomban ezen dimenziócsökkentési algoritmusokat fejlesztettem tovább elosztott módon úgy, hogy azok hatékonyan használhatóak legyenek Big Data környezetben, azaz olyankor, amikor a dimenziók száma nem teszi már lehetővé a hagyományos eszközök használatát. A feladat megoldásához az igen népszerű és széles körben használt Hadoop platformot, illetve az erre épülő adattárház réteget, az Apache Hive-ot választottam. Ez utóbbi rendszer lehetőséget kínál felhasználó által definiált eljárások Java nyelvű implementációjára. Ezt a funkciót használtam fel a PCA-hoz szükséges korrelációs mátrix előállítására és egy igen elterjedt feature ranking mutató, az információtartalom (information gain) kiszámításához szükséges entrópia és feltételes entrópia számolására.

Mint azt a dolgozat második felében bemutatásra kerülő mérési eredmények is igazolják, a fent említett dimenziócsökkentési problémákra az eddig használt módszerek és a Hive-ban elérhető beépített eljárások már néhány száz dimenzió esetén is a gyakorlatban használhatatlannak bizonyultak. Az általam tervezett és implementált algoritmusok azonban képesek ezen feladatokat akár több ezer attribútumból álló adathalmazon is hatékonyan elvégezni.

szerző

Tóth Zsolt
mérnökinformatikus
nappali

konzulens

Prekopcsák Zoltán
előadó, Távközlési és Médiainformatikai Tanszék

helyezés

Morgan Stanley II. helyezett

letöltés
1 000 kB