Aktuální vydání

celé číslo

04

2024

Průmyslové roboty a automatizace výrobních a montážních linek

celé číslo

Systém Epos pro syntézu řeči z psaného textu

číslo 7/2005

Systém Epos pro syntézu řeči z psaného textu

Systém Epos, který byl vyvinut a je postupně zdokonalován v Ústavu radiotechniky a elektroniky AV ČR, patří do kategorie systémů TTS – Text-To-Speech. Cílem bylo vyvinout systém pro převod psaného textu na řeč s vysokou srozumitelností a přirozeností, a to se zaměřením na použití v informačních systémech a pro nevidomé (ve spolupráci s družstvem nevidomých Spektra). Hlavním nástrojem pro syntézu řeči je modelování hlasového ústrojí člověka, včetně modelování prozodie. Velká pozornost je věnována metodám konverze hlasu.

Hlavním impulsem pro vývoj systému Epos byla skutečnost, že v dosavadních řečových syntezátorech bylo nutné veškeré jazykové znalosti, jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti řeči) psát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že např. prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.

Tímto stavem byl v roce 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč, ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez znalosti zdrojového kódu a bez nutnosti následné kompilace.

Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos extrémně konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro němčinu a latinu.

Epos je možné kombinovat s několika různými syntezátory řeči ve frekvenční a v časové oblasti a byly pro něj vytvořeny mužské i ženské hlasy, lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie: prostřednictvím přímých pravidel, pomocí lineární predikce melodie či pomocí neuronových sítí.

Epos je vytvořen s důrazem na paměťovou a časovou efektivitu zpracování. Je to systém vysoce přenosný a je otestován zejména v prostředí OS Linux (jako démon) a v prostředí Microsoft Windows NT/2000/XP (jako systémová služba). Jedna z verzí systému Epos se dočkala rovněž uplatnění v průmyslové automatizaci v energetickém dispečinku pod operačním systémem QNX a existuje také přenos pro Microsoft Windows CE.

Epos je volně šiřitelný software a je možné jej najít na adrese http://epos.ure.cas.cz

Výzkumný tým oddělení číslicového zpracování signálů a syntézy řeči Ústavu radiotechniky a elektroniky AV ČR se podílí na řešení národních i mezinárodních projektů podporovaných Grantovou agenturou ČR, Národním programem výzkumu, Evropskou unií (COST277), MŠMT i soukromými subjekty. Od roku 1993 pořádá také ve spolupráci s Univerzitou Karlovou a některými německými univerzitami každoročně v Praze Česko-německé workshopy o zpracování řeči. V letošním roce uspořádá v září na Hudební fakultě Akademie múzických umění v Praze mezinárodní konferenci o zpracování řeči.

Více informací zájemci najdou na adrese http://www.ias.es.tu-dresden.de/essp2005

(rv)