Regisztráció és bejelentkezés

Szövegelemzési módszerek automatizációja

Napjainkban a természetes nyelvű szövegek elemzése a reneszánszát éli. Sokféle területen nélkülözhetetlenek, az ember-gép kommunikációtól kezdve a különböző adatbányászati alkalmazásokon át a szerzőiség-megállapításig. A módszerek igen széleskörűek, tisztán statisztikai, távolságvektorokon alapuló módszerektől kezdve SVM-eken (Support Vector Machine) át egészen klasszikus osztályozási feladatokat megoldó neurális hálózatokig sokféle eszközt felhasználnak. Ezen módszerek közül az én kutatásom a klasszikus, szövegelemekből képzett sokdimenziós koordináták közti távolságokon alapuló módszerre fókuszál.

Az általam vizsgált módszer elsődleges felhasználási területe a szerzőiség-megállapítás, de történtek egyéb feladatok megoldására történő kísérletek is, például a szerző korának vagy nemének megállapítása.

A módszer egyik fontos problémája, hogy bár igen pontosan megállapítható a segítségükkel egy-egy műnek a szerzője, a megfelelő módszer és a megfelelő paraméterezés megtalálása komoly kihívás, főként egy, statisztikai módszerekben és informatikában kevésbé jártas felhasználónak. Ennek a problémának a megoldására tett kísérlet alkotja a dolgozat gerincét. A kiindulási alapot egy már létező elemző, a stylo nevezetű R nyelvű csomag és az arra épülő, Shiny alapú webes kiegészítés jelentette.

Kidolgoztam egy olyan módszert, amely a szövegek előzetes elemzésére

támaszkodva beállítja az elemzési paraméterek kiindulási értékét. Ez a módszer a vizsgált elemek gyakoriságát és a szövegek hosszát veszi elsődlegesen figyelembe, és az alapját ismert jellegzetességek képezik.

A kezdeti paraméterértékek pontosabb beállítása érdekében kialakítottam

egy eljárást, amelynek alapja a lokális keresés. Amennyiben rendelkezünk ismert szerzőjű szövegekkel, egy olyan paraméterezés, amely ezeket helyesen különíti el, valószínűleg helyesen fog ismeretlen szerzőjű szövegeket is elhelyezni ezekhez a már ismert szerzőjű szövegekhez képest. Ennek a paraméterezésnek a megtalálására a szimulált lehűlés lokális kereső algoritmusát használtam.

A kidolgozott módszerek gyakorlati alkalmazásához készítettem egy olyan

webrendszert, amely felhőalapú, és egy vékonykliens csatlakozik hozzá a böngészőn keresztül. Ez nem igényel egyéni telepítést és konfigurálást, könnyen és intuitívan használható. Az eszköz webes felhasználói felülete tartalmaz varázsló és súgót a módszerben kevésbé járatos felhasználók segítésére, és nagyban leegyszerűsíti a használatot. Ezt követően az elemző funkció hatékonyságát összehasonlítottuk több, manuálisan beállított paraméterekkel végzett kísérlet eredményeivel.

szerző

  • Szakács Béla Benedek
    Mérnök informatikus szak, alapképzés
    alapképzés (BA/BSc)

konzulens

  • Dr. Mészáros Tamás Csaba
    docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

Morgan Stanley III. helyezett