O skupině

Jakým výzkumem se zabýváme

Obecně se zabýváme analýzou a zpracováním řečového signálu se zaměřením na systémy rozpoznávání řeči a zvýrazňování řeči pro komunikační účely. Naše aktuální aktivity směřují především k následujícím dílčím úlohám:

  • rozpoznávání spojité řeči s velkým slovníkem s užším zaměřením na zpracování narušené řeči z hlučného prostředí nebo spontánních promluv
  • extrakce příznaků se zaměřením na robustnost, zahrnutí informance o produkci řeči do příznakového vektoru (artikulční příznaky)
  • optimalizace akustického modelování v systémech na bázi HMM (diskriminativní a adaptační techniky, kombinace ANN/HMM)
  • jazykového modelování pro spontánní reč (slovníky s redukovanou výslovností, LM založené na třídách)
  • automatická fonetická segmentace
  • sběr a příprava řečových a textových dat
  • detekce řečové aktivity 

 

K čemu to je

Výše uvedené rozpoznávací úlohy nacházejí uplatnění v systémech pro on-line přepis řeči do textové podoby, typické příklady takových systémů představují diktovací aplikace v PC, on-line titulkování video pořadů, on-line či off-line transkripce audio záznamů s případnou indexací pro archivaci, hlasem řízenné telefonní informační systémy (nejjednodušší hlasové ovládání bývá používáno pro nahrazení nedostupné tónové volby, existují i systémy s komunikací přirozeným dialogem), systémy hlasového ovládání různých zařízení (velmi často v automobilu), systémy pro fonetickou segmentaci jako podpora základního fonetického výzkumu či speciálních technik analýzy řeči (např. patologické řeči). Zvýrazňování reči nachází uplatnění při jakékoliv komunikaci v hlučném prostředí, kdy odstranění šumu před přenosem výrazně zvyšuje srozumitelnost promluvy pro vzdáleného mluvčího, a také při extrakci příznaků pro rozpoznávání šumem narušené řeči (řeč z jedoucího automobilu, z veřejných prostranství, v místnostech s ozvěnou, řeč snímánou vzdáledným mikrofonem, atd.). Detektory řečové aktivity jsou nedílnou součástí řady systémů rozpoznávání či zvýrazňování řeči (detekce začátku a konce promluvy při rozpoznávání povelů, odhad charaktersitik pozadí při zvýrazňování, apod.). Sběr a následné zpracování řečových a textových dat je nezbytné pro trénování rozpoznávacích systémů, které jsou založené na statistických modelech či na principech umělé inteligence.

Kdo financuje náš výzkum

Náš výzkum byl v minulých letech podporován granty GAČR (1996-2011), AV ČR (2004-2007), COST (1994-2005), výzkumným zaměrem (2005-2011), FRVŠ (2010, 2011), interní grant ČVUT (2012-2013). Podíleli jsme se na Evropských projektech SpeechDat-E (1999-2000), SPEECON (2002-2003), LC-StarII (2006-2007). V rámci bilaterálních projektů jsme spolupracovali s firmami Siemens AG, Muenchen, Germany (1999, 2006), Škoda Mladá Boleslav (2002-2003), TEMIC-Harman/Becker, Ulm, Germany (2000-2004), resp. Radboud University of Nijmegen, Netherlands (2008-2009). 

Aktuálně je náš výzkum podporován interním grantem ČVUT SGS14/191/OHK3/3T/13 (2014-2016), další projekt je aktuálně v grantové soutěži GAČR. 

V rámci hospodářské činnosti aktuálně řešíme dílčí projekty pro firmu ZOOM International.

Za stránku zodpovídá: RNDr. Patrik Mottl, Ph.D.