Szótagolás mély neurális hálózatokkal
A magyar szavak elválasztását a gyermekek tizenéves korukban elsajátítják. A helyesírás szabályai nyelvünkben egyértelműen definiálják az elválasztás módját, melyet hosszas gyakorlás után reflexszerűen tudunk használni és az alapműveltség részeként tekintünk rá.
A gépi alapú szótagolás jelenleg elválasztási minták illesztésével működik, amelyet a TeX első kiadása óta fejlesztenek. Az elválasztási módszer elég jó ahhoz, hogy saját minta-szabályok összegyűjtésével a Magyar Tudományos Akadémia Nyelvtudományi Intézete az online elválasztási tanácsadó portáljához is ezt használja.
A deep learning paradigmák előretörésével felmerült az igény a nyelvtechnológiai módszerek mélytanulásos megoldására is. A digitális világban fellelhető számos korpusz megfelelő méretű alappal szolgál a módszerhez szükséges tanítóadatok előállításához. Mivel a TeX-ben is alkalmazott elválasztóalgoritmus kevés hibával dolgozik, segítségével gyakorlatilag korlátlan tanítóadat állítható elő. A jelen dolgozat egyik célja felmérni, hogy a gépi tanuló eljárások mennyire képesek azon szabályok megtanulására, ami a gyerekeknek általában kevés problémát okoz.
A hallgató a munkája során különböző mélytanulási modelleket próbál ki a szótagolás terén. Egy több nyelvre alkalmazható eljárás kifejlesztése előrébb vihet a nyelvek tanulmányozása, az írás kialakulásának megértése vagy akár a gépi alapú beszéd terén is.
A feladat során alkalmazandó deep learning módszerek: előrecsatolt neurális háló (feedforward neural network), konvolúciós neurális háló (convolutional neural network), rekurrens neurális háló (recurrent neural network).
szerző
-
Németh Gergely Dániel
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)
konzulens
-
Ács Judit
tanársegéd, Automatizálási és Alkalmazott Informatikai Tanszék