Szemantikai elemzés gráf-transzformációkkal

A szemantikai elemzés célja, hogy természetes nyelvi adathoz készíthessünk szemantikai reprezentációt, így tudjuk modellezni a szöveg jelentését. Ha a nyelvi jelentést fogalmak irányított gráfjaival reprezentáljuk, ezeket pedig a mondat szintaktikai szerkezetét reprezentáló fákból kell előállítanunk, akkor a teljes feladat egyetlen komplex gráftranszformációként definiálható.

A népszerű szemantikai feladatokra, mint a szemantikai hasonlóság mérése vagy a gépi szövegértés ritkán használják a természetes nyelv szemantikájának a reprezentációját, főleg state-of-the art rendszerekben. Ezek a rendszerek többnyire szó embeddingeket használnak a szavak jelentésének ábrázolására, amik szavak jelentését legfeljebb néhány száz dimenziós valós vektorként ábrázolják.

Ebben a dolgozatban mi gráf-reprezentációkat és ezek transzformációit használjuk, mint egyszerű, ám hatékony eszközök a következmény viszony felismerésére, valamint leírunk egy módszert a 4lang szemantikus elemzőrendszer (Recski:2016) használatára a 2018-as Semeval Task Machine comprehension using commonsense knowledge (ld. https://competitions.codalab.org/competitions/17184) kapcsán. Ez a feladat azt kívánja a résztvevőktől, hogy olyan rendszereket tanítsanak fel, amelyek ki tudják választani a megfelelő választ az egyszerű, több válaszlehetőséget kínáló kérdéseknél rövid eseményleíró szövegek elolvasása után. A tanító és teszt adat az MCScript adathalmaz (Ostermann et al., 2018) részhalmazából lett kinyerve. A két legjobb rendszer, HFL-RC (Chen et al., 2018) és Yuanfudao (Wang et al., 2018) rendre 84,15% és 83,95% pontosságot ért el a teszt adaton.

Először bemutatunk egy hatékony baselinet ezen a feladaton csupán a szemantikus gráfok és a köztük lévő hasonlóságok felhasználásával. Ezt követően leírjuk a Yuanfudao state-of-the art rendszert és az ezzel végzett kísérletezéseinket, amelyek során a baselineunkat extra featureként felhasználva javítottunk a rendszer pontosságán. Ennek a kiválasztása magától értetődő volt, mivel a forráskód nyilvánosan elérhető, és már sikeresen alkalmazott tudás alapú reprezentációt a szópárok közötti szemantikai kapcsolatokra, a ConceptNet-et. Eredményeink azt mutatják, hogy ezzel a módosítással 0,5% százalékpont növekedés érhető el, és a ConceptNet helyettesíthető a mi szemantikus modellünkkel.

[Recski 2016] Building concept graphs from monolingual dictionary entries. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portoroz, Slovenia. European Language Resources Association (ELRA).

[Ostermann et al., 2018] Simon Ostermann, Ashutosh Modi, Michael Roth, Stefan Thater, and Manfred Pinkal. 2018. MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge. In Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan.

[Chen et al., 2018] Zhipeng Chen, Yiming Cui, Wentao Ma, Shijin Wang, Ting Liu, and Guoping Hu. 2018. Hfl-rc system at semeval-2018 task 11: Hybrid multi-aspects model for commonsense reading comprehension. preprint arXiv:1803.05655.

[Wang et al., 2018] Liang Wang, Meng Sun, Wei Zhao, Kewei Shen, and Jingming Liu. 2018. Yuanfudao at semeval-2018 task 11: Three-way attention and relational knowledge for commonsense machine comprehension. arXiv preprint arXiv:1803.00191.

szerzők

Kovács Ádám
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)
Gémes Kinga Andrea
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Recski Gábor
adjunktus, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

Neumann János Számítógép-tudományi Társaság I. helyezett

letöltés
2 061 kB