„Příčin totální ztráty hlasu může být více. Často je to například vlivem zhoubného onemocnění v oblasti krku, které ve většině případů vede k totální laryngektomii. To je operace, kdy jsou člověku chirurgicky odstraněny hlasivky a hrtan. Vedle jiných problémů člověk přestane mluvit, což je veliký nápor na psychiku,“ vysvětluje vedoucí vědeckého týmu z katedry kybernetiky a výzkumného centra NTIS při Fakultě aplikovaných věd Západočeské univerzity v Plzni Jindřich Matoušek.

V současné době je možné využít technologii TTS (text-to-speech, převod textu na řeč pozn. redakce). Její nevýhodou je, že hlas je neosobní – namluvený profesionálním řečníkem.

„Díky našemu systému budou moci lidé tuto technologii využívat ve spojení s vlastním hlasem,“ vysvětluje Matoušek.

Technologie TTS dokáže přečíst libovolný text. „Řečové systémy se v poslední době dostávají do povědomí široké veřejnosti. V základní nabídce je má například téměř každý smartphone,“ doplňuje vedoucí týmu.

Pavel Ircing z Katedry kybernetiky při Fakultě aplikovaných věd Západočeské univerzity v Plzni. (29. 6. 2018)

Nahrát dostatečné množství dat pro vytvoření hlasu pro TTS není jednoduché.

„Zatímco profesionální řečník nahraje 10 až 20 hodin, uživatelé, kteří chtějí v TTS využívat vlastní hlas, zvládnou hodinu maximálně dvě, ale někdy ještě méně. Z důvodu nemoci je totiž často mluvení vyčerpává. My si s tím musíme umět poradit a vytvořit jejich hlas i z tak malého množství dat,“ říká Matoušek.

V současné době jsou plzeňští vědci schopni zajistit vytvoření kvalitního hlasu pro TTS v případě, že uživatel namluví okolo tisícovky speciálně vybraných vět, které obsahují většinu důležitých řečových jevů.

„Bavíme se o softwaru, který umí přečíst libovolný text. Někdo by si naivně mohl myslet, že řešením by bylo nahrát všechna slova, která v daném jazyce existují. To by ale nefungovalo. V ideálním případě potřebujeme zaznamenat všechny důležité řečové, fonetické a intonační prvky hlasu konkrétního člověka. Hlas ale dokážeme vytvořit už z nahrávek 300 vět, které obsahují všechny hlásky, které čeština používá. Každá další nahraná věta navíc ale rozšiřuje jazykovou a výrazovou bohatost hlasu pro TTS,“ pokračuje Jindřich Matoušek.

Věty, které uživatel nahrává, jsou vybrány speciálním algoritmem. „Některá slova jsou poměrně krkolomná a složitá. Zvláště pokud už konkrétní člověk má s řečí problémy. Jedním z takových slov je například výraz dinosauřčata. Běžně se s ním nesetkáte, my ale potřebujeme nahrát dvojhlásku au a souhlásky ř a č vedle sebe,“ vysvětluje vedoucí týmu.

Plzeňští vědci, kteří jsou hlavními řešiteli zadání, na výzkumném projektu spolupracují s 1. lékařskou fakultou Univerzity Karlovy a firmami Certicon a SpeechTech. Celý projekt začal v loňském roce a je podporován Technologickou agenturou České republiky.

„V současné době již dokážeme komukoliv vytvořit hlas pro TTS. Celý proces je ale poměrně komplikovaný a člověk, který si chce svůj hlas zakonzervovat, musí využít nahrávací studio v Plzni či v Praze. To je samozřejmě pro řadu lidí komplikované,“ doplňuje Matoušek.

Dodává, že navíc po nahrávání musí řadu technologických postupů nutných k vytvoření hlasu provádět ručně. „Do roku 2020, kdy má projekt skončit, chceme celý systém plně automatizovat,“ přeje si Matoušek.

Nahrávání bude jednoduché, přístupné z domova

Výsledný systém má být dostupný na webových stránkách. Přístupný tak bude každému z pohodlí domova.

Uživatel se na stránkách přihlásí. Celým procesem jej provede automatický průvodce. Nahrávání bude jednoduché, půjde jen o to číst věty, které se objeví na obrazovce. Pokud se to na první pokus nepovede, systém uživatele šetrně vyzve k opakování.

Důležité je od uživatele získat co nejvíce dat v co nejkratší době. „Vzhledem k tomu, že v řadě případů může lidem mluvení dělat obtíže, mohou nahrávání kdykoliv zastavit. Po skončení nahrávání zabere samotné vytvoření hlasu systému pouze několik hodin. Poté uživateli přijde SMS nebo e-mail a následně si již bude moci stáhnout do jakéhokoliv vhodného zařízení datový balíček se svým vlastním hlasem pro TTS a začít jej používat,“ uzavírá Matoušek.