Regisztráció és bejelentkezés

Objektumok mozgásának előrejelzése videókon mély tanulással

Napjainkban a mesterséges intelligencia szerepe növekvő tendenciát mutat, egyre több területen van hatással életünkre, az ember és a digitális eszközök összefonódása egyre jellemzőbb modern társadalmunkban. Az elektronikus szerkezetek azonban már nemcsak szórakozásra, hanem a monoton és unalmas tevékenységek kiváltására, a hibalehetőségek csökkentésére, a pontosság, valamint a produktivitás növelésére is alkalmasak.

A gépi látás – mely a mesterséges intelligencia egyik fontos ága - segítségével berendezéseink képesek az azokat körülvevő világ észlelésére, automatizált vizsgálatok, valamint koordinálási feledatok elvégzésére. A gépi látás segítségével a képfeldolgozási feladatok számos esetben sokkal komplexebb módon valósíthatók meg, mint a hagyományos szenzorok segítségével, így lehetővé válik az emberi tényező kizárása, s ezáltal a minőség növelése, azonban ennek ára is van, hiszen jellemzően az ilyen rendszerek felépítése sok esetben bonyolultabb.

Az egyik igen izgalmas és jelentős érdeklődést kiváltó alkalmazási területnek a közlekedés tűnik jelenleg, az önvezető autók esetleges elterjedésében fontos szerepet fog játszani a mesterséges intelligencia is. A közlekedésben az egyik legnagyobb kihívás a jármű körül lévő objektumok felismerése, e célból különféle algoritmusokat fejlesztettek ki, mindnek hátránya azonban, hogy valós idejű alkalmazásuk esetén erőforrásigényük magas.

Munkámban egy olyan mély tanulás (deep learning) alapú megoldást dolgozok ki, mely az erőforrásigény csökkentését tűzi ki célul. A megoldás meglévő objektumfelismerő algoritmuson alapszik, ez fogja a rendszer bemenetét szolgáltatni, s az általam fejlesztett „emlékező” (Long Short-Term Memory, LSTM[1]) hálózat a meglévő objektumok típusából, illetve korábbi elhelyezkedésükből próbál meg a jövőbeli elhelyezkedésükről információt adni, ily módon nem válna szükségessé minden képkockára, hanem elég csak bizonyos időközönként újra lefuttatni az objektumfelismerő algoritmusokat.

Az ideális modell megtalálása érdekében különféle metrikákat (MABO – Mean Average Best Overlap, mAP – Mean Average Precision) használok. A feladatot nehezíti a sok változó tényező, mint a tanult osztályok száma, a bemeneti adatok száma (mennyi korábbi adat szolgáljon bemenetnek), valamint hogy mennyi időpillanattal predikáljunk előre.

Dolgozatomban tehát egy olyan algoritmust mutatok be, mely az LSTM[2] hálózatok idősoros[3] jóslásának fajtájához tartozik. Ez annyit jelent, hogy az időben korábban történt eseményekből próbálunk meg a bekövetkező jövőbeli eseményekre valamiféle előrejelzést adni. Az ilyen hálózatoknak több korábbi időpillanatban történt adatot is be lehet adni bemenetnek, így növelve az előrejelzés pontosságát, melyet természtesen az is erősen befolyásol, hogy mennyi idővel előre szeretnénk információkat kapni a modelltől. A kiértékelés a feljebb leírt különféle metrikák segítségével fog történni, a viszonyítási alapot, melyhez hasonlítva tudjuk értékelni a modell pontosságát, pedig lineáris regresszió segítségével fogom számolni ugyanazon bemeneti adatokból, melyekből a modell is dolgozik.

Összességében tehát objektumok mozgásának előrejelzését fogom megvalósítani idősor alapú LSTM hálózattal, melyet MABO és mAP metrikákkal fogok kiértékelni. A modell által előrejelzett eredmények pedig lineáris regresszió által meghatározott eredményekkel kerülnek összevetésre.

[1]Hochreiter, S. and Schmidhuber, J., 1997. Long short-term memory. Neural computation, 9(8), pp.1735-1780.

[2] Greff, K., Srivastava, R.K., Koutník, J., Steunebrink, B.R. and Schmidhuber, J., 2017. LSTM: A search space odyssey. IEEE transactions on neural networks and learning systems, 28(10), pp.2222-2232.

[3] Laptev, N., Yosinski, J., Li, L.E. and Smyl, S., 2017. Time-series extreme event forecasting with neural networks at uber. In International Conference on Machine Learning (No. 34, pp. 1-5).

szerző

  • Kolonits Dominik
    Villamosmérnöki szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Gyires-Tóth Bálint
    adjunktus, Távközlési és Médiainformatikai Tanszék