Egy új módszer az idősorok pontosabb semi-supervised osztályozására

Az idősorok időben egymás után mért skalárok vagy vektorok sorozatai. Számos alkalmazási területen fordulnak elő olyan feladatok, melyek idősorokkal kapcsolatos problémákra vezethetőek vissza. A toll végének helyzete a papíron, ha egymásutáni időpillanatokban rögzítjük, jellemezhet egy leírt szót vagy aláírást. Megfelelő, kesztyűként viselhető szenzorok segítségével hasonlóan kódolhatóak a jelnyelv jelei is. Az orvosi alkalmazásokban az idősorok az agyhullámok (EEG) és EKG görbék természetes reprezentációi.

Az adatbányászatban supervised és unsupervised problémák fordulnak elő. A supervised feladatokban a tanuló algoritmus bemenetéül szolgáló adatok osztálycímkékkel vannak ellátva. Ezt a bemeneti halmazt használjuk fel egy modell tanítására, mellyel később előrejelzési és felismerési feladatokat oldhatunk meg. Az unsupervised tanulás (klaszterezés) esetén az osztálycímkék hiányoznak, vagy a tanulás fázisában nem érhetőek el.

A semi-supervised protokoll esetében a tanító halmaznak csak egy – általában kicsiny – része címkézett. A címkézett adatok önmagukban nem feltétlenül jellemzik jól a lehetséges bemeneteket, így a jelen levő címkézetlen adatokat is fel kell használni a jó felismerő rendszer készítéséhez.

A dolgozatomban egy új semi-supervised tanulási módszert javasolok az idősorok osztályozására, mely az instance-based tanuláson és hierarchikus klaszterezésen alapul. A választás instance-based módszerre a széleskörű alkalmazhatósága miatt esett: mindössze az idősorok páronkénti távolságainak ismeretét igényli. A távolságfüggvénynek a dynamic time warping (DTW) algoritmust választottam. Erről a távolságfüggvényről igazolt, hogy képes idősorok gyors és pontos supervised osztályzására (Keogh, 2002).

Hogy munkám reprodukálását megkönnyítsem, az algoritmust 38, publikusan elérhető adatbázison (http://www.cs.ucr.edu/~eamonn/time_series_data/) próbáltam ki. A kísérletekben módszeremet az egyik legelterjedtebb idősor felismerő rendszerrel hasonlítottam össze. Az eredmények szerint módszerem szignifikánsan pontosabban osztályozta az adatbázisok jelentős hányadát az elterjedt felismerő rendszerhez képest. Az algoritmus Java kódját nyilvánosan elérhetővé fogom tenni.

Főbb hivatkozások:

Buza, Krisztián (2011). Fusion Methods for Time-Series Classification. Peter Lang Verlag.

Keogh, Eamonn (2002). Exact indexing of dynamic time warping. In 28th International Conference on Very Large Data Bases. Hong Kong. pp 406-417.

Zhu, Xiaojin (2005). Semi-Supervised Learning with Graphs. Carnegie Mellon University.

Zhu, Xiaojin and Andrew B. Goldberg (2009). Introduction to Semi-Supervised Learning. Morgan & Claypool.

szerző

Marussy Kristóf Dr.
mérnökinformatikus
nappali

konzulens

Dr. Buza Krisztián
docens, Eötvös Loránd Tudományegyetem (külső)

helyezés

VIK Hallgatói Képviselet II. helyezett

letöltés
4 256 kB