Szótagolás mély neurális hálózatokkal

A magyar szavak elválasztását a gyermekek tizenéves korukban elsajátítják. A helyesírás szabályai nyelvünkben egyértelműen definiálják az elválasztás módját, melyet hosszas gyakorlás után reflexszerűen tudunk használni és az alapműveltség részeként tekintünk rá.

A gépi alapú szótagolás jelenleg elválasztási minták illesztésével működik, amelyet a TeX első kiadása óta fejlesztenek. Az elválasztási módszer elég jó ahhoz, hogy saját minta-szabályok összegyűjtésével a Magyar Tudományos Akadémia Nyelvtudományi Intézete az online elválasztási tanácsadó portáljához is ezt használja.

A deep learning paradigmák előretörésével felmerült az igény a nyelvtechnológiai módszerek mélytanulásos megoldására is. A digitális világban fellelhető számos korpusz megfelelő méretű alappal szolgál a módszerhez szükséges tanítóadatok előállításához. Mivel a TeX-ben is alkalmazott elválasztóalgoritmus kevés hibával dolgozik, segítségével gyakorlatilag korlátlan tanítóadat állítható elő. A jelen dolgozat egyik célja felmérni, hogy a gépi tanuló eljárások mennyire képesek azon szabályok megtanulására, ami a gyerekeknek általában kevés problémát okoz.

A hallgató a munkája során különböző mélytanulási modelleket próbál ki a szótagolás terén. Egy több nyelvre alkalmazható eljárás kifejlesztése előrébb vihet a nyelvek tanulmányozása, az írás kialakulásának megértése vagy akár a gépi alapú beszéd terén is.

A feladat során alkalmazandó deep learning módszerek: előrecsatolt neurális háló (feedforward neural network), konvolúciós neurális háló (convolutional neural network), rekurrens neurális háló (recurrent neural network).

szerző

Németh Gergely Dániel
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)

konzulens

Ács Judit
tanársegéd, Automatizálási és Alkalmazott Informatikai Tanszék

helyezés

Egyetemi Hallgatói Képviselet II. helyezett

letöltés
592 kB