Regisztráció és bejelentkezés

Hadoop alapú megoldások vizsgálata gyakori elemhalmazok meghatározására

Adatbányászati algoritmusok segítségével nem-egyértelmű, hasznos információkat nyerhetünk ki különösen nagy méretű, esetenként zajos adatbázisokból. Ilyen információ az adatbázisban lévő asszociációs szabályok is. Ezek felfedezése alapvető kérdés és folyamatosan kutatott terület az adatbányászatban.

Napjainkban az adatbázisok mérete egyre nagyobb méreteket ölt, tárolásukra komplett adattárházak állnak rendelkezésre. Ekkora méretekben egy-processzoros rendszerek erőforrásai messze nem elegendőek ahhoz, hogy hatékonyan hajtsunk végre méréseket és kutassunk összefüggéseket bennük.

Az elosztott rendszerek fejlődésével természetes igény adódik arra, hogy asszociációs szabályok kereséséhez felhasználjuk a grid és felhő rendszerekben rendelkezésre álló számítási kapacitást.

Asszociációs szabályok kinyerésére egy klasszikus algoritmus az Apriori. Az Apriori algoritmus tranzakciókat (például vásárlói kosarak tartalmát) tartalmazó adatbázisokból képes kinyerni a gyakran előforduló elemeket és ezek segítségével asszociációs szabályokat előállítani.

Az Apriori algoritmus tervezésekor nem volt szempont az elosztott működés, így módosítás nélkül nem használható több processzoros környezetben. Munkám során implementálom az Apriori algoritmus egy olyan változatát amely elosztott környezetben is képes működni, lehetőleg minél jobban kihasználva az elosztottságból származó előnyöket. Ehhez az Apache Hadoop szoftver keretrendszert használom fel. A Hadoop széleskörűen használt, nyílt forrású szoftver, amely a Googlenél kifejlesztett MapReduce programozási modell legelterjedtebb implementációja.

Célom az algoritmus viselkedésének vizsgálata különböző bemenő paraméterek és felhasznált processzorok mennyiségének függvényében.

szerző

  • Illés János
    mérnökinformatikus
    nappali

konzulens

  • Kovács Ferenc
    Tanársegéd, Automatizálási és Alkalmazott Informatikai Tanszék