Alkalmazásfüggetlen Big Data erőforrás elosztás

A folyamatosan fejlődő digitális világ, a mobil eszközök és az IoT (Internet of things) technológiák megjelenésével az utóbbi időben robbanásszerűen megnőtt az összegyűjtött adatok mennyisége, amelynek következtében az információ elfogadható idő alatti feldolgozása a hagyományos értelemben vett adatbázis technológiákkal sok alkalmazási esetben szinte lehetetlen. A Big Data fogalma alatt azokat az elosztott rendszereket értjük, amelyek képesek az ilyen nagy mennyiségű, komplex, gyorsan változó, olykor jelentős zajt tartalmazó adatok korlátos időn belül vett feldolgozására. A Big Data a gyors adatfeldolgozás mellett az adatok biztonságos tárolását is feladatául tűzi ki. Ennek érdekében fontos szerepet játszik az egyes technológiák elosztottságon alapuló tulajdonsága.

A különböző elosztott adatfeldolgozó rendszereket, köztük a Big Data technológiákon alapuló rendszereket is általában úgy telepítik, hogy az alkalmazás egy egész adatközpontot igénybe vesz. A virtualizációs technológiák elterjedésével azonban megjelentek a virtuális gépekben vagy konténerekben futtatható szolgáltatások. Tehát az alkalmazások a fizikai környezet mellett már virtualizált infrastruktúrára is telepíthetők. Ezek sok esetben továbbra is központosított hardvereken, pl. szerverparkokban, kerülnek együttesen elhelyezésre. A hálózatok fejlődése és a virtualizált számítási platformot nyújtó technológiák, pl. OpenStack, elterjedése azonban lehetővé teszi a földrajzilag elszórt infrastruktúra nyújtotta előnyök kihasználását Big Data alkalmazások alatt is, pl. a feldolgozó egységek elhelyezését közel adatok keletkezési helyéhez. Erre alkalmas a fog computing/edge computing architektúra, mely kiterjeszti a hagyományos központosított topológiát azzal, hogy a hálózat szélein virtualizált környezet futtatására alkalmas csomópontokat helyez el. Ezek a hálózat szélén elhelyezett csomópontok kevesebb számítási erőforrással rendelkeznek mint a nagy adatközpontok, azonban hálózati szempontból közelebb találhatóak a felhasználóhoz vagy az adatot szolgáltató entitáshoz.

Tudományos dolgozatomban ismertetem a Big Data technológiák legelterjedtebb komponenseit. Bemutatom a jelenlegi Hadoop ökoszisztéma központi elemeit, majd részletesen kitérek a feladatom által meghatározott rétegre, az erőforrás-vezénylésért felelős megoldásokra. Összevetek különböző erőforrás-vezénylő algoritmusokat, majd egy vízionált, a jövőben használatos földrajzilag elosztott topológiára definiálok különböző hálózati erőforrásokkal kapcsolatos problémákat (Big Data alkalmazások alatt), melyekre saját megoldásokat készítek. A megoldások tesztelésére saját szimulációs környezetet implementálok, melyben nagy méretű földrajzilag elosztott topológián bizonyítom szimulációkkal az elkészített algoritmusok helyességét, továbbá ugyanebben a szimulációs környezetben más vezénylő megoldásokkal hasonlítom össze saját megoldásaimat. Végezetül az eredményeimet bemutatom és levonom a konklúziókat.

szerző

Haja Dávid
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Toka László
egyetemi docens, Távközlési és Médiainformatikai Tanszék

helyezés

Ericsson Magyarország I. helyezett

letöltés
2 097 kB