Regisztráció és bejelentkezés

Adatfeldolgozó algoritmusok skálázódásának vizsgálata Hadoop platformon

A mai világban nap, mint nap rengeteg új adat keletkezik. Gondoljunk például egy napi internetforgalomra, az egy nap alatt összegyűjtött időjárási adatokra vagy a banki részvények változásainak adataira. Ezt a temérdek adatot a megfelelő cégek el is tárolják, hiszen a mai adattároló eszközök ára és technológiája ezt költséghatékonyan lehetővé teszi. Ezeket az adatokat azonban fel is szeretnék dolgozni, ami az adathalmaz nagy növekedésével egyre nehezebbé vált az eddigi technológiákkal.

Ma a vállalatok túlnyomó többsége az adatai nagy részét relációs adatbázisokban tárolja. Ez, a már oly rég használt technológia egy bizonyos méretig tökéletesen meg is felel az adatok feldolgozására, azonban van akkorra adatméret, mely fölött már nem lehet gyors adatfeldolgozást biztosítani a segítségével. Ekkora adathalmazok elemzésére manapság az elosztott rendszerek segítségével biztosítanak széles körben elfogadott megoldást.

A Hadoop nyílt forráskódú keretrendszer segítségével lehetővé válik nagyon nagy adathalmaz hatékony feldolgozása is. A platform a HDFS nevű fájlrendszerében hatékonyan tárolja az adatokat és a MapReduce technológia segítségével elosztott módon gyors adatfeldolgozásra képes.

A munkám során egy mások által már többféle technológia segítségével elemzett adathalmazt dolgozok fel. Ezek közt a technológiák közt eddig nem szerepelt a MapReduce technológia. A feladatom során Hadoop környezetben, tehát egy új technológia segítségével dolgozom fel az adathalmazt. Bizonyos adatfeldolgozó algoritmusok hatékonyságát vizsgálom a feldolgozandó adat méretének változtatásával. Ezek között keresek skálázódási szabályokat megfelelő metrikák segítségével és hasonlítom össze a teljesítményüket a megfelelő algoritmusok esetén. Így adom meg, hogy a Hadoop keretrendszer segítségével, milyen méretű adathalmaz, milyen algoritmussal dolgozható fel hatékonyabban.

csatolmány

szerző

  • Nagy László Bence
    mérnökinformatikus
    nappali

konzulensek

  • Dr. Ekler Péter
    Adjunktus, Automatizálási és Alkalmazott Informatikai Tanszék
  • Dr. Dudás Ákos
    docens, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

III. helyezett