Az érthető beszédszintézis rekonstrukciója felé: A hangkonverzió és a szövegfelolvasó rendszerek megvalósítása

Absztrakt

Mindennapi munkánk során a kommunikációra szükség van és szükség van életünk minden területén, ahol a beszéd a legtermészetesebb kommunikációs mód az emberek számára. Ez a dolgozat két átfogó beszédszintézis technológiát tárgyal, kiemelve a hangzás különböző megközelítéseit, amennyire csak lehetséges.

Ez a munka két részre oszlik; az első az első technológia, a Voice Conversion (VC) körül forog. A VC-rendszer célja egy olyan transzformáció meghatározása, amely a forrás beszélő beszédét úgy hangoztatja, mintha a célbeszélő mondaná ki. A tipikus hangkonverziós rendszerben a vokódert általában a beszéd-szolgáltatások elemzésére és a szolgáltatás-beszéd szintézisre használják, de azért, hogy elkerüljék a beszédminőség romlását, amit a vokóder okozhat. Bemutattak egy vocoder-mentes hangkonverziós megközelítést, amely nyílt forráskódú lánckerék adatkészleteket használt alapfrekvenciás (F0) transzformációval a konvertált hangok reprodukálására a nyelvi jellemzők megváltoztatása nélkül különböző adatkészletek használatával.

A második részben a Text-to-Speech szintézis (TTS) kerül bemutatásra. A TTS magában foglalja a beszéd hullámformájának generálását szöveges bemeneten. Különféle célokra használható, például autós navigációra, pályaudvarok bejelentésére, távközlési válaszszolgáltatásokra és e-mailek olvasására. A jelenlegi javaslat fő célja a beszéd szintetizálása szövegből a legújabb mély tanulási technikák segítségével. A motiváció egy olyan szintetikus, érthető beszéd létrehozása, amely a lehető legközelebb áll az emberi beszédhez. Eddig több megközelítést is vizsgáltak és alkalmaztak ennek a kihívásnak a megoldására.

Elsőként a Merlin keretrendszerű eszközkészletet valósították meg, amely egy neurális hálózati beszédszintézis rendszer, amely jellemzően front-end szövegfeldolgozóval és WORLD vocoderrel valósult meg. Ebben a tanulmányban azonban két különböző vokóderrel, a Continuous és az Ahocoder vocoderrel valósítottuk meg, ahol megvizsgáltuk a különböző megközelítéseket minden egyes vocoder esetében több adatkészlettel, miközben az egyes vokóderek technikáinak hatékonyságára összpontosítottunk a TTS szintézis magasabb minőségének elérése érdekében.

Másodszor, egy nem autoregresszív szövegfelolvasó modell, a FastSpeech2. Arra összpontosít, hogy kivonja a hangmagasságot, az energiát és az időtartamot a beszéd hullámformájából, és felhasználja ezeket a képzésben és az interferencia során. A gyakori TTS-problémák leküzdésére és a kiváló minőségű beszédszintézis gyorsabb elérése érdekében valósították meg, miközben elkerülték az irányíthatósági és robusztussági problémákat. Ennek eredményeként bebizonyosodott, hogy a FastSpeech2 biztosítja a legjobb minőséget a különböző megközelítések közül.

Összességében különböző beszédszintézis-megközelítéseket vizsgáltunk, hogy kiváló minőségű, nem robotikus emberszerű hangot állítsunk elő több adatkészlethez. A jövőbeni munkában feltárjuk a végpontok közötti neurális technikákat egy adatvezérelt arab TTS rendszer kifejlesztéséhez. Először a hangmagasság-kontúrt kinyeri a beszéd hullámformájából, finomítja a wavelet transzformáció segítségével, és közvetlenül feltételes bemenetként veszi a képzés során.

szerző

Sawalha Layan
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Al-Radhi Mohammed Salah
Postdoctoral researcher, Távközlési és Médiainformatikai Tanszék

helyezés

III. helyezett

letöltés
1 033 kB