Szövegösszegzés Dokumentum-Vektor Embedding Megközelítéssel

Dolgozatomban a természetes-nyelv feldolgozás (angolul: Natural Language Processing - NLP) egyik kurrens problémájával foglalkozok, a hosszú szövegek automatizált rövidítésével, más szóval szövegösszegzéssel (angolul: Text Summarization). A folyamatot az a szándék vezérli, hogy a kimenet ne csak egyszerűen rövidebb legyen, de koherens és olvasható is egyúttal.

Egy erre képes algoritmusnak számtalan alkalmazási módja elképzelhető. Példának okáért napi szinten is nagyon sok könyv jelenik meg világszerte, és természetesen nincs idő mindet elolvasni. Néhányan úgy próbálják megoldani a problémát, hogy a kiszemelt könyv szavait egyenként jelenítik meg tipikusan egy okostelefon kijelzőjének közepén, mindegyiket a másodperc töredékéig. Ezzel a módszerrel körülbelül 120 szót lehet befogadni percenként (angolul: Words Per Minute), viszont lényegesen kevesebb információ marad meg az eredeti olvasási élményhez képest.

Ezzel szemben a módszer, amit bemutatok a dolgozatomban inkább azt célozza meg, hogy minél kevesebb legyen az információveszteség és lehetőleg az olvasási élmény se csorbuljon. Ezt úgy valósítom meg, hogy a program elhagyja az eredeti szövegből az elbeszélés szempontjából nem olyan lényeges részeket és csak a hasznos marad meg. Cél, hogy az olvasónak ne legyen hiányérzete a rövidített szöveg olvasása során.

Az elkészítendő szövegösszegző program egy neurális hálózatot fog használni, amely képes teljes dokumentumok többdimenziós vektorizálására. A hálózat tanításához a CNN/Daily mail adathalmazt használom fel, amely hosszú szöveg- rövidített szöveg párokat tartalmaz. A tanítás úgynevezett felügyeletlen tanítási módszerrel történik (angolul: unsupervised learning), ami azért is jelent kihívást, mert a hálózat kiértékelésénél nincs konkrét elvárt érték, nehezen lehet megállapítani, hogy jó irányba halad-e a tanítás. Szerencsére a választott adathalmazom rövidített szövegeit össze tudom hasonlítani a hálózat kimenetével és megállapíthatók különböző szöveghasonlóságot mérő metrikák (mint például a ROUGE pontszám).

A módszerem négy, jól definiálható lépésből áll. Először vektorizálom a rövidítendő szöveget, másodszor vektorizálom a szöveg mondatait is külön-külön, harmadszor pedig megmérem a távolságot a teljes szöveg vektora és a mondatokhoz tartozó vektorok között. Utolsó lépésben pedig megtartom az eredeti szöveg vektorához legközelebb álló valahány mondatot.

Dolgozatom első felében bemutatom a már létező megoldásokat a szövegösszegzés problémájára és hogy az én megoldásom hogyan illik a képbe. Ezen felül részletesen körüljárom a megvalósított program működését, az elkészítési fázisokat, a felhasznált technológiákat, valamint a neurális hálózat működését.

szerző

Nagy Péter Géza
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Szegletes Luca
egyetemi adjunktus, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

Nem ért el helyezést

letöltés
1 338 kB