ODT - témakiírás: Szűcs Gábor: Mesterséges intelligencia kutatás vizuális ...

Mesterséges intelligencia kutatás vizuális alapú tudásfeltárásra multimodális környezetben

TÉMAKIÍRÁS

Intézmény: Budapesti Műszaki és Gazdaságtudományi Egyetem
informatikai tudományok
Informatikai Tudományok Doktori Iskola

témavezető: Szűcs Gábor
helyszín (magyar oldal): Távközlési és Médiainformatikai Tanszék
helyszín rövidítés: TMIT

A kutatási téma leírása:

Szavaink jó része vizuális eredetű, hiszen szeretjük elnevezni mindazt, amit látunk, legyen az akár konkrét objektum, vagy absztraktabb vizuális fogalom, mint a sötét, világos. A gépi látás során mesterséges intelligencia segítségével tanítjuk meg a rendszereket különböző élőlények, tárgyak felismerésére; azonban a jelenlegi módszerek egy zárt halmazú (adott elemszámú) objektum vagy fogalom azonosítására alkalmasak. A hallgató feladata olyan módszerek kutatása és kidolgozása, amelyek alkalmasak nyílt halmazú feltételrendszer esetén is tanulni, azaz új típusú objektum vagy fogalom feltárását is képesek elvégezni a meglevők felismerése mellett. Ez a felfedezés jellegű tevékenység történhet emberi beavatkozással vagy a nélkül. Az emberi segítségnél a gép és az ember közti kommunikáció lehet szöveges, beszéd vagy akár vizuális gesztus alapú is (multimodális környezetben). Kutatási feladat még a kommunikáció másik irányában is új tudományos eredmények elérése. A másik irány azt jelenti, hogy az ember kezdeményezi a párbeszédet, és képekre, videókra vonatkozóan kérdéseket tesz fel, melyre a gépnek válaszolnia kell. Ilyen vizuális tartalomra vonatkozó kérdés-felelet irányába is elindultak már a kutatások multimodális környezetben, és a mély neurális hálók már most képesek audiovizuális tartalmak elemzésére, felismerésére RNN, LSTM, RBM, CNN típusú hálók segítségével, de az eredmények még nem elég érettek, így a kutatás részét képezi ezeknek a továbbfejlesztése és kombinálása. A cél egy megfelelő mély neurális hálózat architektúra kidolgozása, a sequence-to-sequence típusú mély neurális háló kódolójának és dekóderének (pl. beamsearch dekóder) megtervezése annak érdekében, hogy a mesterséges intelligencia rendszer az emberi kérdést értelmezni tudja, arra megkeresse a megfelelő tudáselemeket, majd ezt természetes nyelven megfogalmazva össze tudja állítani a választ.

Kutatási feladatok:
- Gépi tanulás, gépi látás, mintafelismerés, szövegfeldolgozás, jelfeldolgozás, adattudomány tématerületeihez kapcsolódó algoritmusok kutatása.
- Multimodális problémák elméleti megoldásainak kidolgozása, kép és videó adatok elemzése.
- Mély neurális hálók (RNN, LSTM, RBM, CNN) továbbfejlesztése és kombinálása.
- Több típusú kódoló és dekódoló kutatása sequence-to-sequence típusú architektúrákhoz.

további elvárások:
- angol nyelvismeret
- mesterséges intelligencia valamely részének ismerete

felvehető hallgatók száma: 1

Jelentkezési határidő: 2020-06-15