Adatfeldolgozás elosztása a CERN monitoring részlegén

A monitoring a CERN-nél mindig is egy fontos feladat volt, mivel a számitógépek elérhetősége és készenléte az adatközpontokban határozza meg végül a rendelkezésre álló számítási teljesítményt. Nem csak a hardvert és a szoftvert kell figyelni, hanem a számítási feladatokat is folyamatos ellenőrzés alatt kell tartani. Több éven át ezeket a teendőket üzleti és saját fejlesztésű programok egyvelegével végezték. De a mivel számítási munkák száma, az adatközpontok kapacitása, a szoftverek és konfigurációk karbantartásának munkaköltsége mind nőtt; egy új architektúra lett javasolja mint megoldás, hogy készen álljunk az előttünk álló időre.

Az új architektúra többféle open-source és vertikálisan skálázódó szoftverből áll, többek közt Flume, Kafka, Hadoop, Spark - mind az Apache Software Foundation jóvoltából. Ezek elosztott módban futnak virtuális gépek tucatjain, hogy elvégezzék műveleteiket a folyamatosan érkező adatmintákra, naplósorokra, és státusz frissítésekre.

Ez az új rendszer képes kezelni különböző formátumú és forrású adatfolyamokat egy egységes formátumra való átvitel segítségével. Ez elég megterhelő tud lenni, mivel információt kinyerhetünk adatbázisokból, üzenetsorokból, webes interfészekből, vagy helyi fájlokból; miközben adatformátumuk lehet XML, JSON, szöveges, vagy egy egyéni formátum. Több megjelenítési réteg felelős a valós idejű összesítő vizualizációk, illetve a historikus grafikonok és statisztikák szolgáltatásáért. Új adatfolyamok és naplóforrások csatlakoztatása más kapcsolódott egységek megzavarása nélkül lehetséges. Mivel az elérhetőség egy elsődleges szempont volt a tervezés során, a szolgáltatás képes kezelni több számítási egység kiesését, vagy akár egy teljes adatközpont leállását.

Mialatt a CERN-nél dolgoztam ösztöndíjasként, részt vettem az új architektúra tervezésében, kifejlesztésében és telepítésében. Eközben segítettem a régi rendszer karbantartásában és üzemben tartásában is. Ez a dolgozat a régi rendszer hátrányairól, a javasolt megoldásról, és az új rendszer bemutatásáról szól. Ezeken felül még a Panda Job Monitoring adatgyűjtő rendszer átviteléről is ír, amelyet munkám során sikerült átvinni Oracle adatbázis alapokról az Apache Spark elosztott futtatási keretrendszerre.

Végül pedig összefoglalásképpen feltárom hogy hogy lesz képes az új rendszer megbirkózni a folyamatosan növekedő számú bejövő adatok halmazával, alátámasztva teljesítmény és hatékonyság mérésekkel, kiemelt figyelmet fordítva a Panda Job Monitoring feladatra, mivel a legelsők egyike volt azoknak a feladatoknak, melyek teljes egészükben az új architektúrán futottak.

szerző

Zolnai Dániel
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Ekler Péter
Docens, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

II. helyezett

letöltés
1 560 kB