Nyelvfüggetlen fonémaszintű automatikus szegmentáló fejlesztése

A beszédkutatásban számos olyan terület van, ahol a folyamatos beszéd feldolgozása szükséges. Ilyenkor a beszéd fonémaszintű szegmentálására van szükség. Vannak olyan alkalmazások, ahol a pontos fonéma ismerete nem szükségszerű, csak a hang típusa a fontos, vagyis, hogy nazális, magánhangzó, zöngés, zöngétlen típusú-e a hang. Ezekben az alkalmazásokban a nyelvi tartalom nem alapvető, az akusztikai jellemzők a fontosak. Erre a fajta szegmentációra van szükség, amikor a vizsgált jelenség függ a beszéd időzítésétől, mint például ha a ritmus, vagy ha a magánhangzók helye a kérdés.

Ilyen típusú fonémahatár bejelölésre lehet szükség, amikor a beszéd nonverbális jellemzőit vizsgáljuk, például az érzelem-felismerés vagy a beszélő hangulatának az elemzése ilyen terület. Továbbá, ha különböző neurológiai betegséget tanulmányozunk, amit az érintett beszéde tükröz, a kóros beszéd akusztikai vizsgálata vagy a különböző prozódiai jelek érzékelése. A fent említett szegmentációs technika fontos szempont a beszéd akusztikai paramétereinek a megjelenítésében, az audió-vizuális kiejtésoktató rendszerekben [1, 2, 3, 4].

A csupán akusztikai ismeretekre támaszkodó (nyelvi jelentést figyelmen kívül hagyó) szegmentálási eljárások alkalmasak lehetnek nyelvfüggetlen rendszerek megvalósítására. Az irodalmakban ,találhatóak ilyen rendszerek, ám azok két vagy három akusztikai-fonetikai osztályos (zöngés, zöngétlen, csend) felismerést valósítanak meg [5, 6, 7, 8]. Tanulmányomban egy kilenc osztályos nyelvfüggetlen folyamatos beszédszegmentáló rendszert mutatok be.

Az egyes fonetikai osztályok akusztikai modellezésének optimális beállításához több akusztikai előfeldolgozást is elvégzek, azok teljesítményét pedig összehasonlítom. Az osztályozást és szegmentációt a Szupport Vektor Gép és Rejtett Markov Modell alapú gépi tanuló eljárásokkal valósítom meg. A Szupport Vektor Gépekkel történő felismerés után szabályalapú, valamint statisztikai elven működő utólagos hibajavítást alkalmazok. A nyelvfüggetlenség értékeléséhez három különböző nyelvű adatbázist használok fel, a magyar MRBA [9], a német KIEL [10] és az angol TIMIT [11] adatbázisokat.

[1] Vicsi K, Sztahó D: Recognition of emotions on the basis of different levels of speech segments. JOURNAL OF ADVANCED COMPUTATIONAL INTELLIGENCE AND INTELLIGENT INFORMATICS 16:(2) pp. 335-340. (2012)

[2] Vicsi Klára, Sztahó Dávid, Kiss Gábor: Examination of the sensitivity of acoustic-phonetic parameters of speech to depression. In: 3rd IEEE International Conference on Cognitive Infocommunications (CogInfoCom 2012). Kassa, Szlovákia, 2012.12.02-2012.12.05. pp.

[3] Klára Vicsi, Viktor Imre, Gábor Kiss: Improving the Classification of Healthy and Pathological Continuous Speech.In: Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala (szerk.) Text, Speech and Dialogue: 15th International Conference, TSD 2012. Brno, Csehország, 2012.09.03-2012.09.07. Springer, pp. 581-588.

[4] Kiss Gábor, Vicsi Klara: Akusztikai hangosztályok felismerésén alapuló, nemlineáris idővetemítés megvalósítása a mondathanglejtés és a szóhangsúlyozás oktatásához. BESZÉDKUTATÁS -: pp. 247-261. (2013)

[5] Bachu R.G., Kopparthi S., Adapa B., Barkana B.D.,“Voiced/Unvoiced Decision for Speech Signals Based on Zero-Crossing Rate and Energy ”, IEEE International Joint Conferences on Computer Information, and Systems Sciences, and Engineering (CISSE'08).

[6] M.Malcangi: Softcomputing approach to segmentation of speech in phonetic units, INTERNATIONAL JOURNAL OF COMPUTERS AND COMMUNICATIONS Issue 3, Volume 3, 2009. 41-48

[7] Jalil, M. ; Butt, F.A. ; Malik, A. Short-Time Energy, Magnitude, Zero Crossing Rate And Autocorrelation Measurement For Discriminating Voiced And Unvoiced Segments Of Speech Signals , Technological Advances In Electrical, Electronics And Computer Engineering (Taeece), 2013, 208 - 212

[8] WANG Li-juan, CAO Zhi-gang. Automatic Phonetic Segmentation Using HMM Model [J]. Journal of Data Acquisition & Processing, 2005, 20(4):381-384.

[9 ]Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László: Beszédadatbázis irodai számítógép-felhasználói környezetben, Second Conference on Hungarian Computational Linguistics (MSZNY 2004), Szeged, 2004. (p. 315)

[10] Benno Peters. The Kiel Corpus of Spontaneous Speech. http://www.ipds.uni-kiel.de/kjk/pub_exx/aipuk35a/aipuk35a_1.pdf

[11] Garofolo, J.; Lamel, L.; Fisher, W.; Fiscus, J.; Pallett, D.; & Dahlgren, N. (1990). DARPA, TIMIT Acoustic-Phonetic Continuous Speech Corpus CD-ROM. National Institute of Standards and Technology, 1990.

szerző

Tulics Miklós Gábriel
villamosmérnöki
nappali

konzulens

Dr. Vicsi Klára
egyetemi magántanár, Távközlési és Médiainformatikai Tanszék

helyezés

VIK Hallgatói Képviselet Jutalom

letöltés
1 189 kB