Přehled

Školitel: prof. Ing. Vojtěch Svátek, Dr.

Anotace: Propojená veřejnosprávní data (government linked data) představují jednu z nejrozsáhlejších aplikací technologie propojených dat. Veřejná správa na mnoha úrovních publikuje data jak o své vlastní činnosti, tak o dalších sledovaných agendách (školství, doprava, obchod, aj.) Propojování objektů z nezávisle vzniklých datasetů, ať už přes jednoznačné identifikátory, nebo i heuristickým způsobem, umožňuje jednotlivé datasety obohacovat o další příznaky a potenciálně tak odvozovat obecné vztahy a zákonitosti, které by z izolovaných datasetů nemohly být odhaleny a jsou být zajímavé jak pro veřejnou správu samotnou, tak i pro občanské iniciativy, které ji sledují “zdola”. Výzvou ovšem je nepravidelná grafová struktura dat, pro kterou jsou obtížně využitelné tradiční algoritmy pracující s jednou nebo několika málo relačními tabulkami. Pro učení nad propojenými daty ve formátu “sémantického webu”, RDF, byly v poslední době adaptovány či vyvinuty zcela nově učící algoritmy. Jedním z nich je např. algoritmus AMIE+, jehož vylepšení a optimalizace je předmětem disertační práce již řešené na katedře informačního a znalostního inženýrství (KIZI) VŠE. Navrhovaný disertační projekt by navazoval jak na tuto práci (s cílem aplikovat dosažené výsledky na zvolenou množinu propojených veřejnosprávních datasetů, včetně identifikace doménových znalostí, které by bylo možné využít pro zefektivnění a zpřesnění analýzy), tak i na již obhájenou disertaci J. Mynarze (http://mynarz.net/dissertation/), v jejímž rámci byla ověřena řada technik předzpracování veřejnosprávních dat (zejména o veřejných zakázkách) pro analytické úlohy. Vzhledem k zaměření práce je nutnou prerekvizitou alespoň základní obeznámenost (na úrovni obvyklých magisterských kurzů) s problematikou data miningu a/nebo propojených dat (RDF).