Mély neuronhálók alkalmazása ultrahangos nyelvkontúr követésre

Az artikuláció (a beszélő szervek mozgása) és az akusztikum (a keletkezett beszédjel) kapcsolata régóta foglalkoztatja a beszédkutatókat. A beszéd közbeni nyelvmozgást különböző technológiák segítségével lehet rögzíteni, pl.:ultrahang, EMA (elektromágneses artikulográf), MRI (mágnesrezonancia-képalkotás), röntgen[1]. A gyors artikulációs mozgás követésére ezek közül az ultrahang a legmegfelelőbb, mert egyszerűen használható, elérhető árú, valamint nagyfelbontású (800x600 pixel) és nagysebességű(akár 100 képkocka/mp) felvétel készíthető vele. Az ultrahangos technológia hátránya viszont ebben a témakörben, hogy a rögzített képsorozatból ki kell nyerni a nyelv körvonalát ahhoz, hogy az adatokon további vizsgálatokat lehessen végezni. A nyelvkontúr követés hagyományosan manuális vagy félautomatikus módon történt, azonban az elmúlt időszakban automatikus megoldások is megjelentek erre a célra (pl. AutoTrace: [2]).

A kutatás során a legújabb automatikus nyelvkontúr követő módszerek közül a nemzetközi szakirodalomban is előtérbe került mély neuronháló alapú technikákat vizsgáljuk [3]. Az Indiana University beszédkutató laboratóriumában rögzített két beszélő (egy magyar és egy amerikai angol) ultrahangos felvételein az AutoTrace különböző mély neuronháló elrendezéseit elemezzük annak eldöntésére, hogy melyik architektúra és az adatok milyen típusú absztrakciója legalkalmasabb a feladatra[2], [3].Emellett meghatározzuk, hogy a tanítóadat mennyiségének függvényében milyen mértékben tudja az automatikus nyelvkontúr követés a manuálist közelíteni. A tipikus hibák (például eltávolodás az eredeti nyelvkontúrtól; hiányzó nyelvkontúr szakaszok) számszerűsítésére több hibamértéket hasonlítunk össze.

Az automatikus nyelvkontúr követés a beszédkutatás alapkérdéseinek (pl. a nyelv 3D-s mozgása milyen mértékben járul hozzá az akusztikai kimenet formálásához?) megválaszolása mellett hasznos lehet nyelvoktatásban, beszéd rehabilitációban illetve beszédtechnológiában, audiovizuális beszédszintézisben is [4].

Hivatkozások

[1] M. Stone, “A guide to analysing tongue motion from ultrasound images,” Clin. Linguist. Phon., vol. 19, no. 6–7, pp. 455–501, Jan. 2005.

[2] J.-H. Sung, J. Berry, M. Cooper, G. Hahn-Powell, and D. Archangeli, “Testing AutoTrace: A Machine-learning Approach to Automated Tongue Contour Data Extraction,” in Ultrafest VI, 2013, pp. 9–10.

[3] J. Berry, I. Fasel, L. Fadiga, and D. Archangeli, “Training Deep Nets with Imbalanced and Unlabeled Data,” in Proc. Interspeech, 2012, pp. 1756–1759.

[4] T. Hueber, E. Benaroya, B. Denby, and G. Chollet, “Statistical Mapping Between Articulatory and Acoustic Data for an Ultrasound-Based Silent Speech Interface,” in Proc. Interspeech, 2011, pp. 593–596.

szerző

Csopor David
mérnökinformatikus
nappali

konzulens

Dr. Csapó Tamás Gábor
tudományos munkatárs, Távközlési és Médiainformatikai Tanszék

helyezés

Jutalom

letöltés
1 638 kB