ODT - THESIS TOPIC: Zoltán Alexin: Tartalomelemzés a számítógépes nyelvészetben

Tartalomelemzés a számítógépes nyelvészetben

THESIS TOPIC PROPOSAL

Institute: University of Szeged
computer sciences
Doctoral School of Computer Science

Thesis supervisor: Zoltán Alexin
Location of studies (in Hungarian): SZTE Informatika TCS
Abbreviation of location of studies: SZTE

Description of the research topic:

A számítógépes nyelvfeldolgozás napjaink egyik modern kutatási területe. A mesterséges intelligencia szinte minden egyes témakörének teremt fontos gyakorlati alkalmazási lehetőséget. Az államigazgatás, a döntés előkészítés, a nemzetbiztonság, a bűnüldözés, de a vállalatok és szolgáltatások irányítása is igényli a számítógépes formában rendelkezésre álló szöveges információforrások feldolgozását, rendszerezését és a releváns információ emberileg is értelmezhető, elolvasható összegyűjtését. A tartalomelemzést nyelvi előfeldolgozás előzi meg. Ezen a területen a kutatások már elvezettek gyakorlatban is használható algoritmusokhoz, amelyeket folyamatosan ültetnek át a gyakorlatba. Ezzel megnyílt a lehetőség arra, hogy a szövegek információtartalmának kinyerésével, a szövegekben rejlő tartalommal foglalkozó kutatási projektek induljanak. Az SZTE Informatikai Tanszékcsoport kutatói 1998. óta foglalkoznak magyar számítógépes nyelvészeti tanulási adatbázisok építésével [1], [2], [3], [4]. Ez teremti meg az alapot arra, hogy magyar tartalomelemzéssel foglalkozó kutatások indulhassanak a kutatók irányításával. Természetesen más elterjedt nyelvekre is hozzáférhetők hasonló adatbázisok, ezért lehetőség van az egyes nyelvek összehasonlítására, a nyelvi jelenségek elemzésére, összehasonlítására is.
Tematikus osztályozás és terminológia gyűjtés
A terminológia néhány szavas fogalom megjelölés, amelyben néhány szó meghatározott sorrendben fordul elő. Automatikus felismerésük azon alapul, hogy a terminológia szavainak külön-külön vizsgált eloszlása a szövegben nem feltűnő, azonban a kötötten egymás mellett álló szópárok (n-esek) esetén már szembetűnő más szópárokéval összehasonlítva. Ez a jelenség fennáll gyakori, többszavas tulajdonnevek esetében is. Nagy szövegadatbázisok esetében a lehetséges szavak száma nagy, ezért a statisztikai számítások komplexitása megnő. A különböző statisztikai módszerek (Dunning-féle log likelihood módszer, Pearson-féle khi-négyzet módszer, információ nyereség kiszámítása) alkalmazásával kapott eredmények utólagos szűrésére is szükség lehet például, a gyakori névelős szókapcsolatok eltávolítása érdekében [5], [6], [7].
A számítógépes nyelvészeti alkalmazások egyik fő célpontja az Internet, azon belül is a weblapok. A világon mintegy 100 millió számítógép nyújt web szolgáltatást, ami egyes esetekben néhány lapot, máskor lapok millióit, adatok gigabájtjait jelenti. Az itt feltornyosuló információmennyiség hatékony feldolgozása és osztályozása egy lehetséges kutatási terület. Az International Press Telecommunication Council (IPTC) folyamatosan karbantart egy lehetséges témakör listát, amelyet újságcikkek csoportosításához ajánlanak. A több nyelven is elérhető index mintegy ezer témakört tartalmaz. Az Mesterséges Intelligencia Kutató Csoportban Kocsor András és munkatársai kidolgoztak egy eddig még nem publikált tematikus osztályozó algoritmust, amely a magyar szövegben előforduló szótagok eloszlásán alapult. Ennél azonban fejlettebb megoldás lehet a szövegben előforduló terminológiák, esetleg önálló, karakterisztikus szavak keresése.
Nyelvészeti ontológiák és Wordnet
A nyelvi jellegzetességeken túlmutató, az emberi tudáshoz kacsolódó struktúrák reprezentációjának egy alkalmas eszköze az ún. Wordnet. Ebben a hierarchikus rendszerben a főnevek, melléknevek, igék és határozószavak fogalmi alá- és fölérendeltsége reprezentálható. Az első wordnet a Princeton Egyetemen készült az angol nyelvre és azóta is folyamatosan fejlesztik [8]. Az európai államok több nemzetközi kutatási-fejlesztési projekt keretében egy bővített wordnetet készítettek, az ún. EuroWordnetet [9], [10]. Ez a rendszer egyrészt a különböző természetes nyelvek azonos fogalmait egy nemzetközi nyelvi indexszel (Internation Language Index, ILI) összekapcsolja – így biztosítja az átjárhatóságot a rendszerhez tartozó nyelvek fogalmai között (ezt lehetne fordításra használni); valamint az alá- és fölérendeltség mellett több más relációt is bevezetett a szavak egyes jelentései között. Mindkét wordnetben közös, hogy fogalmakat tárolnak és a közöttük fennálló relációkat kódolják.
A természetes nyelvekben gyakori jelenség, hogy különböző fogalmaknak azonos szavak felelnek meg pl. körte (gyümölcs, elektronos izzó, stb.). A wordnetekben a szavak jelentései meg vannak különböztetve, azonban egyedül a szavak leírt alakja alapján nem lehet eldönteni, hogy mely jelentésük szerepel az adott szövegben (azaz több helyen is meg lehet találni őket találni a hierarchiában). Azt a feladatot, amelynek során egy szöveg szavaihoz a megfelelő wordnet jelentést hozzárendeljük jelentésegyértelműsítésnek nevezik (wsd, word-sense disambiguation). A wsd feladat számos különböző módon oldható meg [13]. Szóba jöhetnek különböző heurisztikus, és tanuló algoritmusok [14]. Ha a szöveg tematikus besorolása már megtörtént, akkor ez is nagyban segítheti a megfelelő jelentések meghatározását.
Az emberi tudás precízebb reprezentációját nyújtják a formális ontológiák. Ebben a rendszerben a nyelvi fogalmaknak osztályok felelnek meg, amelyek között természetes öröklődési (leszármazási) kapcsolat építhető, az osztályok alapján egyedek hozhatók létre. Az osztályokhoz és az egyedekhez tulajdonságokat rendelhetünk, különböző relációkat hozhatunk létre, amelyekkel kapcsolatot teremthetünk közöttük. Logikai formulákkal írhatjuk le, hogy egy adott egyed mikor tartozik bele egy bizonyos osztályba. A MEO (Magyar Egységes Ontológia) projektben egy minimális magyar csúcsontológia kialakítását tűzték ki célul a résztvevők.
Információkinyerés
A természetes nyelvi feldolgozás akkor nyeri el értelmét, ha végül lehetőség nyílik arra, hogy automatikus eszközökkel vonjunk ki bizonyos, a jelentésre vonatkozó információt az adott szövegből. Több különböző jellegű információkinyerési feladat képzelhető el.
A szerep címkézés (role labelling) az egyik feladat, amikor a mondatelemzése után kapott struktúra bejárásával az egyes igékhez tartozó főnévi szerkezeteket, illetve azok szerepét megkíséreljük meghatározni. A szerepek között fontos szerepet tölthet be az alany, az állítmány, a tárgy, az aktor vagy a recipiens meghatározása. A szövegekben rejlő szemantikus információ megragadásának egyik eszköze az ún. szemantikus keret. A szemantikus keret fogalmát a Berkeley Egyetemen dolgozó Charles Fillmore vezette be [11], [12]. Munkatársaival a mai napig folyamatos dolgoznak a FrameNet projekt keretében a fontosabb angol igék és vonzataik kapcsolatát leíró szemantikus keretrendszeren. Ez egy nyelvi mintát jelent, amelyben az illeszkedésre vonatkozó feltételek vannak, továbbá ún. ablakok (slot) ahol megjelenik egy kivonni kívánt adat. Ha a keret illeszthető egy mondatra, akkor az ablakokban található szereplőt, adatot, információt kell a rendszernek összegyűjtenie. Amennyiben a kivont információból ismét olvasható egyszerű szerkezetű mondatokat állítunk elő, akkor beszélünk szövegtömörítésről, kivonatolásról.
A jelölttel szembeni elvárás, hogy a kiválasztott téma nemzetközi szakirodalmát megismerje, a legújabb eredményekkel kapcsolatban alapvető tájékozottságra tegyen szert. A továbbiakban, nemzetközi konferencián (vagy folyóiratban) elfogadott közleményt jelentessen meg a saját eredményeiről. Ez az eredmény lehet egy saját maga által kifejlesztett algoritmus, amelyet értékel és elhelyez a tudományos közéletben ismert más módszerek között, vagy egy már ismert algoritmus, amelyet a magyar nyelvre is alkalmaz, és kapott eredményeket értékeli. Ugyancsak lehetséges téma egy adott algoritmus viselkedésének bemutatása és értékelése különböző nyelvcsaládokba tartozó természetes nyelvek esetén (angol-szász, szláv, finn-ugor, esetleg más).
Kapcsolódó publikációk
1. D., Csendes, Z., Alexin, R., Busa-Fekete, A., Kocsor, K., Kovács: New, Linguistics-based, Ontology-enabled Approaches in Biological Information Management, in the Proceedings of the e-Challenges 2006 Conference, October 25-27, pp. 1352-1359, Barcelona, Spain (2006).
2. Z., Alexin, J., Csirik, A., Kocsor, M., Miháltz, Gy., Szarvas: Construction of the Hungarian EuroWordNet Ontology and its Application to Information Extraction, project report, in the Proceedings of the Third International WordNet Conference (GWC2006), January 22-26, pp. 291-292. South Jeju Island, Korea (2006).
3. Z. Alexin, T. Gyimóthy, J. Csirik: Software Package for Supporting Information Extraction Research, in Proceedings of the Second Hungarian Conference on Computational Linguistics, MSZNY 2004, pp. 41-48, magyar nyelven, Juhász Nyomda Szeged (2004).
4. Z. Alexin, J. Csirik, T. Gyimóthy, K. Bibok, Cs. Hatvani, G.Prószéky, L. Tihanyi: Manually Annotated Hungarian Corpus, in Proc. of the Research Note Sessions of the 10th Conference of the European Chapter of the Association for Computational Linguistics EACL'03, Budapest, Hungary 15-17 April, pp. 53-56 (2003).
Irodalom
5. Kis Balázs; Pohl Gábor: Az automatikus terminológiakivonatolás módszerei. In: Alexin Zoltán; Csendes Dóra (szerk.) A 3. Magyar Számítógépes Nyelvészeti Konferencia előadásai, 221–229. SZTE, Szeged (2005)
6. Kis, Balázs; Begona Villada; Tamás Bíró; Gosse Bouma; Gábor Pohl; Gábor Ugray; John Nerbonne: A New Approach to the Corpus-based Statistical Investigation of Hungarian Multi-word Lexemes. In: Proceedings of the 4th International Conference on Language Resources and Evaluation, Vol. V, 1677–1681. Lisbon, Portugal (2004)
7. Kis, Balázs; Begona Villada; Tamás Bíró; Gosse Bouma; Gábor Pohl; Gábor Ugray; John Nerbonne: Methods for the Extraction of Hungarian Multi-Word Lexemes. In: Decadt, B.; V. Hoste; G. de Pauw (eds) Computational Linguistics in the Netherlands 2003 (Antwerp Papers in Linguistics, Vol. 111), 47–62. University of Antwerp, Antwerp, Belgium (2004)
8. Fellbaum, C. (ed.) (1998): WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press
9. Vossen, P., L. Bloksma, H. Rodriguez, S. Climent, N. Calzolari, A. Roventini, F. Bertagna, A. Alonge, W. Peters (1998): The EuroWordNet Base Concepts and Top Ontology. EuroWordNet Deliverable D017, D034, D036. University of Amsterdam. http://www.illc.uva.nl/EuroWordNet/docs/D017PS.zip
10. Vossen, P. (ed.) (1999): EuroWordNet General Document, Version 3. University of Amsterdam. http://www.illc.uva.nl/EuroWordNet/docs/GeneralDocDOC.zip
11. Fillmore, Charles J.: Frame semantics and the nature of language. In Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech, Volume 280: 20-32, (1976)
12. Fillmore, Charles J. (1977): Scenes-and-frames semantics, Linguistic Structures Processing. In Zampolli, Antonio (Ed.): Fundamental Studies in Computer Science, No. 59, North Holland Publishing, 55-88, (1977)
13. C. D. Manning, H. Schütze: Foundations of Statistical Natural Language Processing, The MIT Press, London, England (2000)
14. Tom M. Mitchel: Machine Learning, The McGrew-Hill Companies Co. (1997) ISBN: 0-07-115467-1.
Konferenciák:
COLING (Computational Linguistics), ACL (Association for Computational Linguistics), EACL (European Association for Computational Linguistics), LREC (Language Resources Evaluation Conference), TSD (Text, Speech and Dialog Conference), CoNLL (Computational Natural Language Learning), MSZNY (Magyar Számítógépes Nyelvészeti Konferencia).

Number of students who can be accepted: 1

Deadline for application: 2011-05-16