Širokopásmové technologie, využívané zhruba posledních 20 let, stejně jako novější využití prostorového zvuku podle prof. Holuba směřují k co nejrealističtějšímu záznamu hlasu – tedy aby posluchač slyšel volajícího „jako by seděl po jeho boku“. Tyto sítě mnozí každodenně využívají například v aplikacích pro on-line komunikaci, mobilních telefonech a dalších nepostradatelných technologiích současnosti.
K měření kvality různých parametrů, včetně přenosu hlasu, se používají standardizované metody. „Tyto metody jsou jak subjektivní, tedy poslechové nebo konverzační testy, tak objektivní, kdy se testuje pomocí algoritmů, které by měly poskytnout obdobný výsledek jako testy subjektivní,“ vysvětlil prof. Holub, který se s kolegy na FEL ČVUT věnuje kvalitě přenosu hlasu v komunikačních sítích od konce 90. let. Poznamenal, že tyto postupy se využívají například, když mobilní operátor vybírá novou technologii pro nasazení do své sítě.
Prof. Holub popsal, že pro posuzování kvality nejmodernějších technologií se v poslechových testech podle současné normy používá sada mužských a ženských hlasů v určeném minimálním rozsahu a počtu vzorků. „Pak se, v rámci genderové vyváženosti, vytvoří statistika, která se vybuduje obecně nad všemi hlasy dohromady. Ale nikdo to dosud oficiálně nevyhodnocoval zvlášť – tedy jen pro mužské a jen pro ženské hlasy,“ popsal vědec. A právě do toho se pustil jeho tým. „Když se vyhodnocení provede takto odděleně, tak výsledky ukazují, že i u řady nejmodernějších technologií jsou ženské hlasy přenášeny se statisticky významně nižší kvalitou, což zvyšuje nutné poslechové úsilí na straně posluchače, případně má dokonce vliv na srozumitelnost přenosu,“ uvedl prof. Holub. „A pokud se pohybujeme ve škále 1 až 5 (tzv. MOS – Mean Opinion Score), tak zhruba o desetinu té škály,“ vysvětlil vědec. Zdůraznil, že významné pro rozhodování o kvalitě různých technologiích jsou přitom v praxi i odchylky, které se pohybují kolem 0,2. „0,5 je tak už poměrně velký rozdíl,“ konstatoval vědec.
Jak studii aplikovat v praxi?
Studie, za níž stojí prof. Ing. Jan Holub, Ph.D., doc. RNDr. Kateřina Helisová Ph.D. a postgraduální student Ing. Yann Kowalczuk, vyústila v návrh doporučení Evropského ústavu pro telekomunikační normy (ETSI). Mezi členskými organizacemi, které návrh týmu z FEL podpořily, byla podle prof. Holuba vedle řady firem také např. NATO Communication and Information Agency (NCIA).
Návrh doporučení byl projednán komisí ETSI STQ, po zapracování řady připomínek delegáty komise přijat a dne 25.10.2023 zveřejněn pod označením ETSI TR 103 950: Gender-related aspects of listening quality and effort in speech communication systems. Otevírá se tak prostor pro lepší vyvážení těchto aspektů při navrhování budoucích kodeků a přenosových systémů.
Jak problém vzniká
Horší přenos ženských hlasů byl podle prof. Jana Holuba dosud znám u starších úzkopásmových spojení, například u amplitudové modulace (AM), která se z bezpečnostních důvodů dodnes využívá mimo jiné v leteckém provozu. „Pro úzkopásmové frekvenční pásmo je typické, že průměrně znějící ženský hlas, který má výše položený základní tón a celá jeho energie je ve spektru výš, je frekvenčně oříznut. Takže informace se technicky přenáší hůře než v případě hlubších mužských hlasů. Tam se to ale ‘pěkně kompenzuje’ tím, že úzkopásmové přenosy bývají v zarušeném prostředí, které pro změnu ‘zamaskuje’ mužské hlasy ležící v obdobném spektru jako ruch,” popsal prof. Holub. V reálu tak bývá někdy paradoxně ženským hlasům rozumět lépe, byť výsledky z laboratorního měření ukazují opak.
V případě moderních širokopásmových technologií a technologii prostorového zvuku se však tento „ořez“ již nevyskytuje, a přesto jsou ženské hlasy často přenášeny hůře. „Důvody, proč ten rozdíl vzniká, jsou celkem známé. Je to vždy kompromis mezi nějakým novým kritériem a tím, kolik dat je třeba přenést za uskutečněný hovor,“ nastínil prof. Holub. „Jedno z kritérií při návrhu moderního číslicového kodéru je délka rámce. Řečový signál se rozdělí na části, které se překrývají. Čím jsou rámce kratší, tím jich je, za minutu či sekundu, více. Čím jsou delší, tím je jich méně. Pokud se každý tento úsek zakóduje přes knihovnu okamžitých spekter do konečného počtu bitů, tak ve finále, čím je úsek delší neboli paketizace řidší, tím méně dat se přenáší,” popsal vědec postup. To má podle jeho slov vliv i na úspory v přenosové síti, když je třeba část přenosové trasy pronajatá. „Právě tím, že je ženský hlas ve spektru položen výše, tak je spousta detailů v daném časovém průběhu zrychlená. Tudíž čím větší rámce se zvolí, tím hůře se to kóduje, neboť kodér uvnitř rámce předpokládá, že jde o kvazi-stacionální signál. Rychlé změny tam nedokáže dobře zachytit,“ doplnil expert.
Prvním krokem pro zlepšení je podle něj využívat kratší rámce. „Což má bohužel přímý důsledek v navýšení potřebné přenosové rychlosti. Nebo obráceně, když jsou návrháři nuceni, aby se vešli do dané přenosové rychlosti, tak jedna z možností je navrhnout dostatečnou délku řečového rámce. To je známá věc,“ sdělil prof. Holub.
„Dále jsou tu frekvenční filtry, které se na trase vyskytují. Mají za cíl omezit šumy mimo řečové spektrum. Tyto filtry jsou historicky navrhovány tak, že mohou potlačit vyšší frekvenční složky – včetně části spektra ženského hlasu. To je snadno opravitelná věc, ale s paketizací je to horší, protože to prostě něco stojí,“ dodal vědec. Zdůraznil, že požadavek na snížení statisticky významného rozdílu mezi přenosem průměrného mužského a ženského hlasu je oprávněný.
Ženský hlas podle jeho slov nebyl upozaděn záměrně. „Ta paketizace se prostě historicky vyvíjela od úzkopásmového spojení, kde rámce byly ještě delší nebo ještě hůře kódované, a zatím se to nedoladilo,“ poznamenal prof. Holub. V reálu se aktuální stav může projevovat tak, že se například zprávy diktované po radiolince musí zopakovat víckrát a komunikace zabere více času.