Služba pro správu významových slovníků TermIt
Uklízečka pojmů a interní dokumentace. Tvorba významových slovníků, anotace datových zdrojů, jejich obsahu a vyhledávání.
Investujete desítky procent svých nákladů do tvorby a údržby dat, a přesto se Vám zdá, že jsou data “utopená”, nebo že jsou často špatně interpretována? Nebo byste jen rádi, aby byla propojena s vašimi dokumenty, či legislativou a nevíte, jak to efektivně zařídit?
S problémem nepřesného popisu dat a dalších zdrojů, vedoucím k jejich chybné interpretaci, nekvalitnímu vyhledávání a orientaci v nich jsme se opakovaně setkali při spolupráci s českými organizacemi veřejné správy, i s komerčními firmami.
K funkčnímu propojení se ukázalo jako nezbytné nahradit klíčová slova slovníkovými pojmy navázanými na legislativu či vnitřní předpisy. A tak třeba místo klíčového slova budova bychom pro indexaci datové sady o vytápěných budovách použili pojem budova (podle zákona č. 406/2000 Sb. o hospodaření energií). A proč? Protože třeba na rozdíl od pojmu budova (podle zákona č. 256/2013 Sb. katastrální zákon) neoznačuje autobusové zastávky, či nevytápěné skladové haly. Navíc z těchto pojmů umíme vytvořit “síť” propojující pojmy pomocí přesných významových vazeb. Toho pak využíváme pro přesnější vyhledávání. A tak umíme usnadnit odpovědi třeba na tyto otázky:
- Dostal jsem neznámý dokument. O jakých pojmech ze zákona mluví? Jakých zákonů se týká?
- Dostal jsem dokument o budovách. Myslel jejich autor budovy dle Zákona č. 256/2013 (Katastrální zákon), nebo dle Zákona č. 406/2000 Sb. o hospodaření energií ?
- Lze zastávku považovat za budovu?
- Mám spoustu datových sad, ale jak mám najít tu, kterou zrovna potřebuji?
- Chci zjistit, které datové sady mohu propojit se svou datovou sadou tak, abych získal konkrétní informace.
Jaké problémy svým zákazníkům řeší?
Vytvořili jsme software TermIt, který vás provede celým výše uvedeným procesem, od tvorby významového slovníku až po jeho využití pro anotaci datových zdrojů (datových sad, dokumentů, atd.), jejich obsahu a samotné vyhledávání. A nejen to, poskytne Vám “uklízečku pojmů a interní dokumentace”. Uspořádá vaše znalosti, abyste lépe spravovali vaše data a udělali je srozumitelnými a dobře vyhledatelnými. Vaše organizace tak získá větší nezávislost na expertech ovládajících konkrétní pojmosloví a vy se nebudete bát je pustit na dovolenou.
Na vývoji celého řešení úzce spolupracujeme s Institutem plánování a rozvoje hl.m. Prahy. Samotný nástroj pro tvorbu pojmosloví pak testujeme s dalšími organizacemi veřejné správy.
Fáze vývoje produktu
Máme hotové klíčové části systému TermIt zahrnující zejména:
- tvorbu formálních slovníků,
- propojování slovníkových pojmů na legislativu a jiné dokumenty,
- anotátor a vyhledávač dat pomocí vytvořených slovníkových pojmů.
Nyní pracujeme na zefektivnění uživatelského rozhraní, a na dalších vylepšeních - třeba na vytvoření dashboardu pro editora slovníku, na vytvoření rozhraní nástroje pro publikaci slovníku na veřejnost, a to včetně podpory veřejné diskuse o jednotlivých pojmech. To vše samozřejmě volitelně - ne každému se to hodí.
Způsob komercializace
Kromě konzultací a školení pak nabízíme systém TermIt jako hostovanou službu v několika komerčních plánech. Pro základní využití nabízíme komerční podporu open-source verze systému TermIt. Pro pokročilé uživatele nabízíme i další funkce (např.pokročilejší textovou analýzu, či anotaci a sémantické vyhledávání datových zdrojů) nad rámec open-source verze. Nebráníme se i dalším způsobům spolupráce. Ozvěte se.
Technická specifikace
Řešení je založeno na formálních ontologiích publikovaných v souladu s principy propojených dat a využívající technologie RDF, OWL, SKOS a SPARQL. To zajistí snadnou distribuovatelnost a integrovatelnost s existujícími ontologiemi.
Samotný TermIt je moderní webová aplikace na platformě Java s klientskou částí napsanou v JavaScriptu. TermIt poskytuje REST API pro integraci s vaším vyhledávacím strojem.
Kromě hostované služby lze též provozovat TermIt na vlastním serveru.
Open-source verze
- vytváření a správu slovníků a pojmů
- publikaci slovníků formou propojenych dat,
- základní analytické a statistické ukazatele pojmů a slovníků - počet slovníků, počet pojmů, počet pojmů ve slovníku, rozdělení pojmů podle ontologických typů
- základní textovou analýzu (např. vyhledávání klíčových slov) - vyhledání pojmů z existujícího slovníku v novém dokumentu
- ontologické typy pojmů (UFO - objekt/událost/vlastnost/vztah) + vazby mezi nimi
OPPPR (closed-source) verze
- pokročilou textovou analýzu (např. vyhledávání klíčových frází v dokumentech, jejich prioritizace),
- správu libovolných datových zdrojů (např. dokumentů),
- anotaci digitálních zdrojů pojmy ze slovníku - spravované digitální zdroje je možné anotovat pojmy z jednoho či více slovníků a pomocí těchto anotací vyhledávát
- integraci s poskytovateli SSO - zatím GitHub
- facebook komentáře pro externí uživatele
- propojení pojmu s původem jeho definice v dokumentu
- definiční závislosti pojmů (pojem se vyskytuje v definici jiného a naopak), závislost skrze ontologické vztahy
Máte o tuto technologii zájem?
V případě zájmu o naše technologie, produkty a služby kontaktujte telefonicky nebo e-mailem koordinátora pro transfer technologií: