Publikációgyűjtemény tudásbázisának építése természetes nyelven

Az interneten hozzáférhető információ mennyisége rohamos mértékben nő, tudományos eredmények nagy száma kerül publikálásra különböző formátumokban a világhálón. Az orvosbiológiai és egészségügyi publikációkat gyűjtő MEDLINE adatbázisába például az előző év során naponta átlagosan több mint 2000 új cikk került feltöltésre, az egyes biológiai adatbázisok pedig milliós nagyságrendű adatokat tartalmaznak. Ez az információözön azonban mégsem vonja maga után a tudás hasonló mértékben való terjedését, mivel a felhasználók számára nehéz feladat az érdeklődésükhöz kapcsolódó releváns információ hatékony felderítése. Az ezredfordulón erre a problémára merült fel a szemantikus web ötlete, melynek célja a világhálón elérhető információk hatékony összekapcsolása szemantikai, tartalmi alapon. Noha az online dokumentumokhoz ma már gyakran elérhető meta adatok (cím, szerző, téma, kulcsszavak, stb.) segítik a keresőmotorok munkáját, megfelelő tudásábrázolás nélkül az intelligens, tartalom alapú keresés még mindig nem lehetséges.

A szemantikai kereséshez gépek által feldolgozható, logikai reprezentációra van szükség, ám ennek elkészítése egy adott cikkhez a tárgyterület és a szemantikus technológiák ismeretét is igényli. Munkám során egy olyan alkalmazást hoztam létre, mely lehetővé teszi a tudásábrázolási technológiákban nem jártas kutatók számára is, hogy elkészítsék publikációk szemantikus reprezentációját. Ennek megoldásához egy természetes nyelvű szerkesztőfelület áll rendelkezésre, melynek segítségével a felhasználók elkészíthetik egy cikk kivonatát, a cikkből a fontosabb állítások természetes nyelvű megfogalmazásával. A megadható mondatok szerkezetét egy úgynevezett kontrollált nyelvtan szabja meg. Az ehhez való gördülékeny alkalmazkodást a prediktív felület segíti a felhasználóknak, mely a gépelés közben megjeleníti, milyen szavakkal folytatható az adott ponton a mondat. Az elkészített program segítségével a felhasználóknak lehetőségük van publikációk olvasása, vagy készítése során annak a gépek által is értelmezhető szemantikus kivonatát létrehozni. Az állításokból egy nyelvtani elemző segítségével (a kontrollált nyelvtanra támaszkodva) elkészíthető a cikk tartalmának logikai reprezentációja. A kivonatokkal ellátott cikkek mögött így megjelenik egy logikai adatbázis, melyen intelligens, szemantikus keresés illetve következtetés is végrehajtható.

A dolgozatomban bemutatott alkalmazás egy személyes publikációgyűjtemény hatékony rendszerezését és lekérdezését teszi lehetővé, de a létrehozott technológia ennél még messzebbre mutat. A természetes nyelvű bevitel alapját képző kontrollált nyelvtan dinamikusan változtatható, cserélhető és kiterjeszthető (pl. ontológiákkal). Az alkalmazás hasznosítható lehet nagyobb publikációs rendszerekben is, ahol a kiadványok mellé az ily módon formálisan leírt tartalmi összefoglaló is megjelenhet, lehetővé téve a rendszerben az intelligens, cikkek tartalma alapján történő keresést.

szerző

Hornyák Zsuzsanna Éva
mérnökinformatikus
nappali

konzulens

Dr. Mészáros Tamás Csaba
docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

Egyetemi Hallgatói Képviselet Jutalom

letöltés
1 878 kB