Přijdou o hlasivky, ale ne o vlastní hlas

Lidem, kterým hrozí ztráta hlasu nebo už vědí, že o něj přijdou, má pomoci jeho automatická konzervace a rekonstrukce, na níž pracují vědci výzkumného centra NTIS při Fakultě aplikovaných věd Západočeské univerzity v Plzni. Počítače by se mohly naučit mluvit stejně jako pacienti už příští rok, prozrazuje v rozhovoru hlavní řešitel projektu Jindřich Matoušek.

Pacienty o hlas připravují zhoubné nádory, kvůli nimž musí podstoupit totální laryngektomii – operaci, při níž lékaři odstraní celý hrtan a tudíž i hlasivky. Ztracený hlas jim pak mohou navrátit speciální pomůcky, například elektrolarynx, ovšem hlas, který pak z takových přístrojů vychází, zní uměle a neosobně. Projekt nazvaný Automatická konzervace a rekonstrukce hlasu se zaměřením na pacienty po totální laryngektomii to má změnit. Svůj vlastní hlas si díky němu bude moci nahrát kdokoliv klidně i u sebe doma, o zbytek se postará program.

Plzeňští vědci spolupracují s 1. lékařskou fakultou Univerzity Karlovy a firmami Certicon a SpeechTech, podporuje je Technologická agentura ČR. Hlavní řešitel projektu a člen vědeckého týmu katedry kybernetiky a výzkumného centra NTIS Jindřich Matoušek říká, že udělat komukoliv hlas na míru je možné už teď, ale zatím se to neobejde bez asistence experta. Počítače by to měly zvládnout samy po roce 2020, kdy projekt skončí.

Proč jste se rozhodli hlas pacientů vůbec konzervovat?
Každý má dnes možnost koupit si komerční řešení a syntézu hlasu používat s hlasem profesionálního řečníka, ovšem pro spoustu lidí to není ono. My jsme chtěli zachovat jejich pravý hlas, ačkoliv jeho kvalita nemusí být tak dobrá jako u profesionála. Laikovi to nevadí a je rád, když slyší vlastní hlas a rodina nebo přátelé mu řeknou, že ho poznávají, že je to on. Myslím, že v náročném období po operaci to může být velká psychická pomoc. Vlastní syntéza řeči není nic nového, začala mechanickými syntetizéry a pokračovala elektronickými a počítačovými, nicméně vždy za ní byla spousta manuální práce, pokud měl vzniknout dobře znějící hlas. Byl to náročný a zdlouhavý proces, trvající několik měsíců, někdy i let, což si my nemůžeme dovolit, pokud chceme vytvořit hlas pro kohokoliv. Našemu programu to potrvá několik hodin.

Projekt začal v roce 2017, v roce 2020 skončí. V jaké fázi jste teď?
Prakticky jsme již teď schopni udělat komukoliv hlas na míru a experimentujeme s automatickým zpracováním, což je hlavní cíl projektu. Kdybyste přišel a řekl, že chcete nahrát hlas, mohli bychom to udělat buď u nás ve zvukové komoře, kde k tomu máme vhodné akustické a technické podmínky, nebo pokud budete mít méně času, můžete se nahrát sám doma a my vám dáme všechny potřebné instrukce. Poučíme vás, že nemáte mluvit emociálně, ale spíše nezaujatě, nicméně ani monotónně a „roboticky“, ale prostě jako kdybyste předával informaci. Když se vám to podaří a nahrajete pět set až tisíc vět, bude to velmi dobrý základ. Jakmile od vás dostaneme nahrávky, začneme na nich pracovat a vytvoříme balíček s vaším hlasem, který bude ve výsledku poznat velmi dobře. Bude to ovšem práce pro několik lidí, kteří musí soubory prohlížet a zpracovávat ručně, takže to nepotrvá několik hodin, ale několik dnů.

Jaké věty říkají lidé, kteří chtějí zakonzervovat hlas? Dostanou od vás i text?
Kdybychom je nechávali číst libovolný text, mohlo by se stát, že nám některé důležité řečové jevy budou chybět a nemohli bychom zaručit dobrý výsledek. Proto jsme museli postupovat jinak. Cílem syntézy řeči je na řeč přeměnit jakýkoliv text (odtud název programu TTS neboli text-to-speech) včetně nesmyslného, a k tomu je třeba mít datový balíček s co nejvíce řečovými, fonetickými i intonačními prvky. Věty proto vybíráme speciálním algoritmem, přičemž jde o fonetickou a prozodickou bohatost. Prozodické charakteristiky ovlivňují vyznění věty – velice zjednodušeně si můžeme představit, že ovlivňují, jestli věta vyzní jako oznamovací nebo jako tázací.

Samotné nahrávání tak není jen o tom zachytit správně dejme tomu hlásku A, ale také o tom, abychom ji zachytili správně například na začátku věty, kde vyzní jinak než na konci věty, přičemž na konci věty ještě odlišujeme, zda jde o větu oznamovací, kdy větná melodie obvykle klesá, nebo o větu tázací zjišťovací, kdy větná melodie stoupá. Na začátku jsme měli milion takových vět. Vyvinuli jsme algoritmus, který věty prochází a přiděluje jim skóre, až jsme vybrali tři a půl tisíce vět, což pro nahrání hlasu lidí v tomto případě považujeme za maximální možný počet vět, které jsou zájemci schopní nahrát. Stále přitom jde o laické mluvčí – pro profesionální řečníky se v jiných úlohách běžně vybírá deset tisíc až dvacet tisíc vět, někdy i více.

Je to kvůli času, který často pacienti nemají?
Ano, měli jsme tu člověka, který v sobotu nahrával svůj hlas a v pondělí už mu při operaci odstraňovali hlasivky. Čas v případě rakoviny rozhoduje a musí se jednat rychle, takže se pacient může dozvědět, že ho do týdne čeká operace, ale zároveň se také dozví, že má možnost se nechat nahrát. Samozřejmě z těch tří a půl tisíce vět může nahrát i méně, obvykle to tak i bývá.

Ale záznam jeho hlasu už potom asi nebude tak dokonalý.
Když nahraje tři tisíce vět, je to výborné, když nahraje tisíc vět, jsme spokojeni, a když nahraje tři sta, dá se s tím také pracovat.

Jak může takové nahrávání trvat dlouho?
Všichni z týmu jsme to zkoušeli na sobě a já jsem nahrál sedmnáct set vět za tři tříhodinová nahrávací sezení. Komu nedělá problémy mluvit a má na to čas, bude to mít podobně. Takže kdyby někdo věděl, že ho čeká totální laryngektomie nebo jiná operace v oblasti krku, a vyčlenil si na to jedno odpoledne, může nahrát třeba šest set vět. Platí, že čím více vět se zvládne nahrát, tím lépe, ale zároveň není dobré nahrávat moc dlouho, protože hlas se unavuje.

Kolik jste tímto způsobem už nahráli hlasů?
Myslím, že celkem kolem padesáti, z toho asi třicet hlasů bylo od pacientů, další od jiných laických mluvčích, například od kolegů z katedry. Dokonce jeden člověk, který přišel o hlas, dnes syntézu vlastního hlasu používá při své práci psychologa. Byl jeden z prvních, kterého jsme nahráli.

Zmínil jste se o tom, že lékaři o případné konzervaci hlasu mluví s pacienty.
Lékařská fakulta Univerzity Karlovy v Praze má za úkol mimo jiné šířit povědomí o našem projektu mezi lékařskou veřejnost a zvyšovat informovanost u pacientů. Hovoří se o něm i na odborných lékařských kongresech a vědeckých konferencích, a to nejen u nás, ale i v zahraničí. Někteří zájemci o konzervaci hlasu si nás ale našli i sami, když se o projektu dozvěděli například z médií.

Když hlas nahrajete, co se s ním děje dál?
Syntéza hlasu ještě donedávna fungovala především na bázi výběru jednotek, jehož princip je velmi intuitivní. Řekněme, že jsme nahráli tisíc vět, ale samozřejmě chceme syntetizovat, tedy vytvořit úplně jinou větu. Abychom ji ale mohli vytvořit, musí se nejprve rozložit jednotlivá slova nové věty na subslovní jednotky, například hlásky. K nim pak algoritmus najde odpovídající „kousky řeči“ a ty pak za sebe řetězí. Syntetizujeme například slovo AHOJ, algoritmus tedy pro ně najde hlásky A, H, O, J, vyřízne jejich signál z původních nahrávek a řetězením spojí za sebe - konkatenuje, a proto se tomuto přístupu říká konkatenační syntéza. Každá hláska ovšem zní různě v různém kontextu – když je před A hláska P, zní jinak, než kdyby před ní bylo třeba M. Záleží i na tom, jestli je hláska na začátku, nebo na konci slova, zda je slovo na začátku věty nebo na konci věty před pauzou a podobně. Výběr jednotek tedy znamená, že ve všech možných nahrávkách hledáme v jistém smyslu nejlepší A, nejlepší H, nejlepší O, nejlepší J.

A navíc asi hledáte A, které je na začátku slova.
Kromě jiného, protože ještě lepší bude, když po A ve slově, ze kterého pochází, bude následovat H, které také ovlivní, jak má to áčko vyznít. Celému tomuto postupu se říká syntéza výběrem jednotek, z anglického unit selection, a jde o speciální případ konkatenační syntézy. Komerčně je to ještě stále asi nejvyužívanější metoda, ale jejím nedostatkem je, že pro ni potřebujete opravdu velké množství akusticky kvalitních dat, což je problém, obzvlášť když pracujete s laickými hlasy.

Proto se začala používat ještě druhá metoda zvaná statistická parametrická syntéza. Tato metoda dnes pracuje téměř výhradně s modely neuronových sítí a vypadá velice slibně. K vytvoření rozumné kvality syntetické řeči totiž nepotřebuje tolik dat a je díky tomu vhodnější pro pacienty, kteří nemají čas nebo sílu načíst velké množství textu. Když pacient zvládne nahrát třeba jen dvě nebo tři sta, můžeme jeho neuronové modely smíchat s modely jiných řečníků, třeba i profesionálů, a k rekonstrukci jeho hlasu tak využít i obecné statistické charakteristiky jiných řečníků. Výsledek bude znít trochu jinak než u konkatenační syntézy a naším cílem je nabízet obě metody a dávat uživatelům na vybranou.

Nabízet metody a dávat na vybranou budete, až projekt skončí a syntetizace hlasu bude automatická a přístupná každému. Jak to potom bude vypadat?
Webový portál uchovejhlas.cz, díky kterému to bude možné, už je v testovacím módu, nahrávání hlasů ale zatím není přístupné veřejnosti. Až se ale spustí, uživatel bude mít po registraci a přihlášení přístup na internetovou stránku, jakýsi internetový nahrávač s intuitivními tlačítky typu Nahraj, Zastav, Zkus znovu, a bude číst věty, které se mu objeví na obrazovce. Protože vše musí být automatické, bude systém uživatele také kontrolovat a řekne mu, jestli větu nahrál v pořádku nebo ho upozorní na případný problém. Záznamy pak systém sám, už bez pomoci lidí zpracuje a výsledný balík dat si uživatel jednoduše stáhne.

Jaké zařízení bude potřeba, aby mohl hlas ožít?
Vše se stáhne normálně do počítače nebo do mobilu, ve kterém bude správná aplikace. Žádné sofistikovanější zařízení nebude zapotřebí. A ačkoliv jsme mysleli především na lidi, kteří přijdou o hlas úplně, může automatická konzervace sloužit i komukoliv dalšímu, kdo má problém s hlasem, nebo třeba nadšencům do techniky, kteří budou chtít, aby za ně jejich přístroje typu automatického záznamníku mluvily jejich vlastním hlasem.

Když se nebudeme bavit o pomoci lidem, kteří přišli o hlas, kde všude se dnes s programy TTS vlastně setkáváme? Vím třeba, že v telefonu hlásí přesný čas.
Zajímavou aplikací syntézy řeči, kterou jsme vyvinuli ve spolupráci s firmou SpeechTech, jsou hlášení v Dopravním podniku hlavního města Prahy. Slyšet ji můžete například v metru. Nejsou to ta hlášení o zastávkách, která načetl člověk, ale informace o mimořádných událostech, uzavírkách, náhradní dopravě… Prostě hlášení, která nelze jednoduše připravit s předstihem. Jinak technologie TTS v poslední dekádě zažívá boom, je standardní výbavou každého chytrého telefonu, součástí chytrých domácích asistentů nebo ji najdete v GPS navigacích pro čtení názvů ulic a jiných speciálních textů. Začíná se používat také pro načítání některých audioknih.

A předčítání textu na webových stránkách některých obcí?
I to je náš systém a tím se dostáváme k další velké skupině lidí, kterým je syntéza prospěšná, což jsou nevidomí. Informace na webech si mohou nechat přečíst nahlas, mohou si díky ní také číst e-maily nebo pomocí speciální aplikace screenreader nechat předčítat jakýkoliv obsah obrazovky. V Plzni je dokonce základní škola pro slabozraké, kde jsme pro děti pomáhali vyrábět učební pomůcky, takzvané elektronické učebnice. Učitelky, které děti nejlépe znají, připravovaly v nástroji podobném Wordu jakýsi výtah z učiva, psaly ho tak, jako kdyby k dětem mluvily, a my jsme do toho přidali speciálně upravený modul syntézy řeči. Žáci se pak přihlásili na internetový portál ucebnice.zcu.cz, našli si učebnici a syntéza jim předčítala text i popisovala obrázky a pomáhala jim pochopit látku. Text se jim na obrazovce barevně zvýrazňoval, aby poznali, ve které části stránky právě jsou, a tím si zlepšovali i orientaci v textu. Byl to zajímavý projekt, který skončil někdy před čtyřmi lety a pomůcky se stále používají.

Takže syntéza řeči začíná být běžnou součástí našich životů.
O to důležitější je stále pracovat na zvyšování kvality syntetické řeči, protože i když zejména v poslední dekádě došlo k výraznému nárůstu kvality, existuje stále celá řada aplikací, pro něž současná kvalita a zejména přirozenost syntetické řeči není dostačující.