A legkiterjedtebb, közösségileg szerkesztett általános tudásbázis taxonómiai elemzése
Napjaink legkiterjedtebb, közösségileg szerkesztett enciklopédikus tudásbázisa a Wikidata. Az emberi beavatkozások mellett számtalan szoftveres automatizmus aktívan bővíti és módosítja, nem csoda hát, hogy jelenleg is több tízmillió entitásról tartalmaz tényállításokat. A tudásbázison belül az egyes példányok egy típusrendszerhez kapcsolódnak, mely típusrendszer elemei is hasonlóan dinamikusan szerkeszthetők. A különféle módosítási folyamatok eredményeképpen egy igen komplex, sajátos, tipikus eszközökkel nehezen átlátható és vizsgálható séma jött létre.
Jelen munkában bemutatjuk a Wikidata típusrendszer felépítését, jellegzetességeit. Az általános tulajdonságokon túlmenően a vizsgálatok alapvetően a séma problémáinak feltárására irányulnak. Probléma alatt nemcsak a hagyományos értelemben vett modellezési hibákat értjük, mint például köröket a típusok gráfjában, hanem a tudásbázissal dolgozó szerkesztők, felhasználók munkáját megnehezítő sajátosságokat is.
Általános tudásbázisoknál, azaz nem szakértői rendszereknél ugyanis jelentős probléma, hogy a laikus felhasználók mentális sémája és a tudásbázis valódi sémája között jelentős eltérés lehet. A mentális séma általában jóval egyszerűbb, mint a számos folyamat által hosszabb időn keresztül csiszolt tudásbázisséma. Mindez megannyi felhasználási esetben a rendszer és használója közötti meg nem értéshez, fennakadásokhoz vezethet. Kutatásunk kiterjed ezen jelenséghez kapcsolható sémajellemzőkre is.
szerző
-
Bokányi Balázs
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)
konzulens
-
Simon Gábor
ügyvivő szakértő, Automatizálási és Alkalmazott Informatikai Tanszék