A Gutenberg Dialógus Adathalmaz Neurális Dialógus Modellekhez

Létrehozunk egy új, nagy, és jó minőségű adathalmazt neurális dialógus modellezésre, és bemutatjuk előnyeit jelenlegi adathalmazokhoz képest. A konverzációs ágens (chatbot) egy olyan program mely emberekkel képes kommunikálni természetes nyelven, feldolgozva a felhasználó bemenetét és releváns és érdekes válaszokat adva. Míg a múltban a szabály-alapú modellek népszerűek voltak, manapság mély tanulás alapú modellek dominálják a dialógus modellezés területét. A nagy adathalmazokon való neurális háló alapú konverzációs ágensek tanításának paradigmája fontos kérdéseket vet fel, hogy az adatminőség hogyan befolyásolja ezeket a chatbotokat, és milyen evaluációs módszerekkel tudjuk hatékonyan felmérni a betanított modellek teljesítményét. Ez a pályamunka megpróbál pár kérdésre választ adni, a releváns háttér feltárásával és egy új dialogus adathalmaz bemutatásával.

Munkám első részében bemutatásra kerülnek a jelenlegi általános dialógus adathalmazok az irodalomból, majd bemutatjuk hogyan hoztunk létre egy új, nagy és jó minőségű adathalmazt. A dialógusok a Gutenberg Projekt online könyveiből vannak kinyerve. Egy részletes adat elemzést mutatunk be, és megmagyarázzuk a hiperparaméterek és előfeldolgozási lépések mögötti okokat, egy minél jobb minőségű adathalmaz létrehozásának érdekében. Továbbá egy részletes hibaelemzést is adunk, mind mondat, mind dialógus szinten.

Munkám következő részében evaluáljuk az adathalmazt, más nagy adathalmazokhoz hasonlítva transzfer tanulási kísérlet keretében. Amellett érvelünk, hogy a mi adatunkon előtanítva jobb eredményeket lehet elérni kisebb downstream adatokon. Továbbá, az adathalmazunkat felhasználva tovább validáljuk előzőleg bemutatott módszerünket dialógus adathalmazok szűrésére. A jelenlegi neurális háló alapú dialógus modellekből hiányzik a diverzitás, és unalmas válaszokat generálnak nyílt végű bemeneti mondatokra. Szerintünk ez annak köszönhető, hogy az adathalmazokban általában egy bemenetre sok elfogadható válasz létezik, és hasonlóan egy kimenetre sok potenciálisan jó bemenet létezik. A szűrési módszerünk ezt a problémát megpróbálja kezelni azzal, hogy eltávolítja a generikus mondatokat a tanítóadatból egy egyszerű entrópia-alapú módszerrel. Ebben a dolgozatban röviden bemutatjuk ezt a módszert és a hatékonyságát különböző dialógus adatokon beleértve a Gutenberg Dialógus Adathalmazt. Továbbá megtárgyaljuk a jelenlegi evaluációs metrikákkal felvetődő potenciális problémákat, és hogy ezek hogyan befolyásolják az eredményeink helyességét. Zárásul, tovább motiváljuk a transzfer tanulási hatások feltárását, és egy többnyelvű Gutenberg Dialógus Adathalmazt javaslunk.

szerző

Csáky Richárd Krisztián
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Recski Gábor
adjunktus, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

III. helyezett

letöltés
1 052 kB