ODT - témakiírás: Csorba Kristóf: Szemantikai elemzés gráf-transzformációkkal

Szemantikai elemzés gráf-transzformációkkal

TÉMAKIÍRÁS

Intézmény: Budapesti Műszaki és Gazdaságtudományi Egyetem
informatikai tudományok
Informatikai Tudományok Doktori Iskola

témavezető: Csorba Kristóf
helyszín (magyar oldal): Automatizálási és Alkalmazott Informatikai Tanszék
helyszín rövidítés: AUT

A kutatási téma leírása:

A természetes nyelvi technológiák (Human Language Technologies, HLT) legmagasabb szintjén álló
olyan komplex feladatok számára, mint amilyen a gépi fordítás, a kérdés-megválaszolás, a
dialógusrendszerek (chatbotok), vagy akár a szemantikus web, a legnagyobb korlátot a mély (nyelvi)
szemantikai elemzés hiánya jelenti. A legmodernebb, túlnyomórészt neurális hálók felügyelt tanulásán
alapuló rendszerek a nyelv szavainak jelentését olyan sokdimenziós vektorterekben reprezentálják,
melyek struktúráját nem vagy csak nagyon korlátozott mértékben ismerjük. Ezzel a trenddel állnak
szemben a fogalmi hálózatokon alapuló szemantikai reprezentációk, melyek ugyan automatikus
módszerekkel még csak korlátozott minőségben állíthatók elő, de lehetővé teszik, hogy explicitebb
módon vizsgáljunk olyan, az általános mesterséges intelligenciához közel álló feladatokat, mint a
természetes nyelvi következtetés (natural language inference) vagy a gépi szövegértés (machine
comprehension), melyekre ma szinte kizárólag mélytanulás-alapú módszerekkel dolgozó, nagyon
korlátozott eredményeket elérő rendszerek léteznek (ld. pl. A SemEval 2018 Machine Comprehension1
vagy a MultiNLI2 versenyek résztvevőit).
A mély szemantikai elemzést is segítő olyan szintaktikai és sekély szemantikai elemzést megvalósító
technológiák, mint pl. a nyelvtechnológiában rendkívül elterjedt függőségi elemzés (dependency parsing),
ugyancsak (irányított) gráfként reprezentálják a szöveg szavai közti különböző típusú összefüggéseket.
Így egy-egy szemantikai elemző pipeline a nyers szövegtől a mély szemantikai elemzésig kizárólag
gráf-transzformációs műveletekkel operál. Az ilyen transzformációk reprezentálására és tanulására az
utóbbi évtizedben több formalizmus is napvilágot látott, ilyenek pl. A hiperél-újraíró nyelvtanok
(hyperedge-replacement grammar, HRG) vagy a gráf-transzformációra is alkalmas interpretált reguláris
fa-nyelvtanok (Interpreted Regular Tree Grammars, IRTG). Egy ilyen, kellően általános formalizmus
segítségével egyetlen nyelvtanban fogalmazhatók meg a szintaktikai szerkezet és a mély szemantikai
tartalom, vagyis a szöveg által reprezentált információ közötti tetszőleges összefüggések, ezáltal pl. a
nem vagy nem teljesen kompozicionális szerkezetek szemantikája is. Egy ilyen “end-to-end” rendszer
végül arra is képes lehet, hogy a mély szemantikai elemzés folyamatába integrálja a jellemzően szintén
gráf-alapú nyelvi (pl. FrameNet) és nem-nyelvi (pl. DBPedia) ontológiákat is.
A témában többek között az alábbi kutatási feladatok merülhetnek fel:
● szintaktikai és szemantikai elemzőrendszerek funkcionalitásának integrálása egyetlen gráf-alapú
rendszerben
● probabilisztikus gráfnyelvtanok tanítása szemantikai elemzés és szemantika-alapú generálás
céljára
● gráf-alapú szemantikai reprezentációk használata sztenderd nyelvi szemantikai feladatokban
● konstrukciós nyelvtan implementálása gráf-transzformációkkal

felvehető hallgatók száma: 1

Jelentkezési határidő: 2018-07-31