Adatfeldolgozó algoritmusok skálázódásának vizsgálata Hadoop platformon
A mai világban nap, mint nap rengeteg új adat keletkezik. Gondoljunk például egy napi internetforgalomra, az egy nap alatt összegyűjtött időjárási adatokra vagy a banki részvények változásainak adataira. Ezt a temérdek adatot a megfelelő cégek el is tárolják, hiszen a mai adattároló eszközök ára és technológiája ezt költséghatékonyan lehetővé teszi. Ezeket az adatokat azonban fel is szeretnék dolgozni, ami az adathalmaz nagy növekedésével egyre nehezebbé vált az eddigi technológiákkal.
Ma a vállalatok túlnyomó többsége az adatai nagy részét relációs adatbázisokban tárolja. Ez, a már oly rég használt technológia egy bizonyos méretig tökéletesen meg is felel az adatok feldolgozására, azonban van akkorra adatméret, mely fölött már nem lehet gyors adatfeldolgozást biztosítani a segítségével. Ekkora adathalmazok elemzésére manapság az elosztott rendszerek segítségével biztosítanak széles körben elfogadott megoldást.
A Hadoop nyílt forráskódú keretrendszer segítségével lehetővé válik nagyon nagy adathalmaz hatékony feldolgozása is. A platform a HDFS nevű fájlrendszerében hatékonyan tárolja az adatokat és a MapReduce technológia segítségével elosztott módon gyors adatfeldolgozásra képes.
A munkám során egy mások által már többféle technológia segítségével elemzett adathalmazt dolgozok fel. Ezek közt a technológiák közt eddig nem szerepelt a MapReduce technológia. A feladatom során Hadoop környezetben, tehát egy új technológia segítségével dolgozom fel az adathalmazt. Bizonyos adatfeldolgozó algoritmusok hatékonyságát vizsgálom a feldolgozandó adat méretének változtatásával. Ezek között keresek skálázódási szabályokat megfelelő metrikák segítségével és hasonlítom össze a teljesítményüket a megfelelő algoritmusok esetén. Így adom meg, hogy a Hadoop keretrendszer segítségével, milyen méretű adathalmaz, milyen algoritmussal dolgozható fel hatékonyabban.
szerző
-
Nagy László Bence
mérnökinformatikus
nappali
konzulensek
-
Dr. Ekler Péter
Docens, Automatizálási és Alkalmazott Informatikai Tanszék -
Dr. Dudás Ákos
docens, Automatizálási és Alkalmazott Informatikai Tanszék