Sběr řečových a textových databází

Řečové databáze jsou nezbytné pro tvorbu systémů rozpoznávání řeči, nebo jsou zdrojem informace o variabilitě akustických charakteristik promluvy (řečové databáze) či o pravděpododbnosti konkrétního slovního kontextu (textové databáze). V této oblasti jsme se podíleli na vzniku několika rozsáhlých databázích v rámci evropských projektů či na bázi bilaterálních komerčních spoluprací, které nyní využíváme v našem výzkumu, tj.

telefonní databáze ČÍSLOVKY a Czech SpeechDat, obě s cca 1000 mluvčími (dostupné přes http://www.elra.info
česká verze databáze SPEECON, 650 dospělých mluvčích a 50 dětí v různých prostředích (viz http://www.elra.info)
1000 mluvčích v prostředí automobilu pro TEMIC SDS
databáze s evokovaným Lombardovým jevem
databáze přednášek z oblasti zpracování řečových a biologických signálů
česká a slovenská verze LC-Star lexikonů (viz http://www.elra.info)
databáze spontánní a neformální komunikace, Nijmegen Corpus of Causal Czech (viz http://www.mirjamernestus.nl/Ernestus/NCCCz/index.php)

Výzkumné skupiny

Laboratoř zpracování řeči

Výzkumné téma

Zpracování signálů

Tým se zabývá analýzou a zpracováním řečového signálu se zaměřením na systémy rozpoznávání řeči a zvýrazňování řeči pro komunikační účely. Jeho aktuální aktivity směřují především k rozpoznávání spojité řeči s velkým slovníkem s užším zaměřením na zpracování narušené řeči z hlučného prostředí nebo spontánních promluv. Zvýrazňování řeči používá při komunikaci z hlučného prostředí nebo při extrakci příznaků pro robustní rozpoznávání šumem narušené řeči.

Sběr řečových a textových databází

Výzkumné skupiny

Laboratoř zpracování řeči

Mějte přehled