Regisztráció és bejelentkezés

Kép és videó rendszerezési problémák a gyakorlatban

Az információs társadalom jelenleg a túlkínálat korát éli. Megszámlálhatatlan mennyiségű tartalom kerül fel az internetre nap, mint nap, aminek nagy részét már nem is szolgáltatók, hanem maguk a felhasználók töltik fel a web2.0 elterjedése óta. Ezen tartalmak a legutóbbi trendek szerint nem csupán szöveges információk, hanem hanganyag, képek és videók is. Továbbá a modern digitális mobil eszközök elterjedésének köszönhetően nem csak a weben, hanem a felhasználóknál is rengeteg multimédiás tartalom található: számítógépeken, fényképezőgépeken, okostelefonokon, táblagépeken. A nagy képhalmazok és videó gyűjtemények gyorsan átláthatóvá tétele egyre fontosabb feladat lett a mai világban. Jelen dolgozat erre a kettő témakörre koncentrál, mind elméleti, mind gyakorlati eredményeket felmutatva, és alkalmazási lehetőségeket említve.

A célunk tehát a felhasználók segítése, a képeik és videóik gyorsan áttekinthetővé tétele, különböző megoldások segítségével. Kitétel, hogy a folyamatnak automatizáltnak kell lennie, ne igényeljen felhasználói beavatkozást a kényelmes használat érdekében. Az elkészítendő megoldás egy alapvető céllal, mégis két területtel rendelkezik. A rendszerezés témán belül a TDK dolgozat a felmerülő problémáknak csak egy-egy szeletét mutatja be. Képek esetében azokat albumokba/témakörökbe kell rendezni, majd az albumon belül néhány, jellemző képet kiválasztani. Egy másik gyakran felmerülő probléma, hogy a videókat jelenetekre kell szeparálni. Így a sok ezer kép pl. a nyaralásról áttekinthető lesz néhány jellemző „témakör kép” alapján, a hosszú videókban pedig rögtön a megjelölt jelenetekhez ugorhatunk, keresgélés nélkül.

Fontos megemlíteni, hogy mind a képek rendszerezése, mind a videók szegmentálása a nyilvánvaló technikai nehézségeken túl rendkívül szubjektív feladat. Például, két ember két különböző módon válogatna szét egy képhalmazt, vagy osztana fel egy videót részekre, így az algoritmusnak meg kell találni azt a középutat, ami minden ember által elfogadható és megfelelő. Fenti okok miatt sok elméleti meggondolásra, tesztre és finomhangolásra volt szükség, amelyek a TDK dolgozatban kifejtésre kerülnek. Intelligens módszereket kellett tehát alkotni, melyekkel a felhasználók szemével nézve is megfelelő eredményeket kaphatunk. A vizsgálatok és fejlesztések több módon zajlottak: teszthalmazok felállításával, szubjektív véleményezéssel és a felállított mérőszámok és mutatók alapján visszacsatolással. A munka során az elméleti tervezés és tesztelés mellett egy működő, Python nyelven írt prototípus program is elkészült, az általa elért eredmények ismertetésre kerülnek a dolgozatban.

A megoldás rengeteg érdekes alkalmazási lehetőséget rejt magában, mind online, mind offline környezetben: (i) Windows képek mappa ikonjánál a tartalmazott képekből megjelenhetne néhány jellemző „témakör kép” (még a 7-es verzióban is csak a betűrendben első néhány kép jelenik meg). (ii) Biztonsági kamerák felvételeinek elemzése, ahol a hosszú videó folyamban megállapítható, hogy mikor történtek események. További gyakorlati lehetőségek és részletes bemutatásuk is megtalálhatóak a dolgozatban az egyes területek sajátosságainak figyelembe vételével.

szerzők

  • Turbucz Sándor
    mérnök informatikus
    nappali
  • Leposa Tamás
    mérnök informatikus
    nappali

konzulens

  • Dr. Szűcs Gábor
    egyetemi docens, Távközlési és Médiainformatikai Tanszék