ODT - témakiírás: Czúni László: Képszegmentálási eljárások objektum-visszakeresés és ...

Képszegmentálási eljárások objektum-visszakeresés és felismerés céljára

TÉMAKIÍRÁS

Intézmény: Pannon Egyetem
informatikai tudományok
Informatikai Tudományok Doktori Iskola

témavezető: Czúni László
társ-témavezető: Kató Zoltán
helyszín (magyar oldal): Pannon Egyetem, Műszaki Informatikai Kar, Villamosmérnöki és Információs Rendszerek Tanszék
helyszín rövidítés: PE

A kutatási téma leírása:

A kognitív tudományokban hosszú ideje vita tárgya hogyan reprezentálja az emberi agy a 3Ds objektumokat: objektum vagy néző központú a reprezentáció [Bar]. Hasonlóan, a számítógépes látásban léteznek objektum központú megközelítések, amikor az objektum térbeli jellemző (pl. határoló geometria, 3D pontok, felületek) modellezik a tárgyakat és léteznek olyanok, amikor a különböző irányokból felvett 2Ds vetületek. Az utóbbi időkben a laboratóriumban olyan módszerek kerültek kidolgozásra, amelyek néző centrikus módon képesek 2Ds vetületek alapján a 3Ds tárgyakat visszakeresni, felismerni [Czuni2015, Czuni2016].
Mivel a különböző objektumok más-más irányból nagyon különbözőképen nézhetnek ki, a képi leírók, az adatbázis, a keresési mechanizmus, a hasonlósági mérték megtervezését körültekintően kell megoldani, hogy minimális legyen a szükséges tárhely és keresési idő, míg maximális a találati ráta.
A hatékony módszerekhez kulcskérdés, hogy robosztus és megfelelő leíró képességű tulajdonságokat használjunk. A SIFT alapú módszerek lokális tulajdonságokat használnak és képesek a megfelelő területek egyfajta kijelölését is elvégezni. Más megközelítések szerint először a tárgyakat szegmentálni kell a háttértől, és utána lehet elvégezni a felismerést. A tervezett kutatás ezeket a módszereket veti össze és új, hatékony, mérsékelt számítási komplexitású módszerek kidolgozására irányul.

Javasolt kutatás
Egyértelmű, hogy a videók több vizuális információt adnak a 3Ds objektumokról, mint egy 2Ds kép: a különböző nézetek mellett a 3Ds struktúrát is rekonstruálni lehet közvetlen [Irani] vagy közvetett [Torr] un. „structure from motion” technikákkal. Azonban ehhez jó minőségű képekre, kamera kalibrációra és nagy számítási teljesítményre van szükség. Mindez jelenleg távol van a legtöbb mobil platformtól vagy szenzorhálózati érzékelőtől. Nemrégiben többrétegű mélytanulásos megközelítések törtek előre, melyek nagy képi halmazok bonyolult struktúráit képesek feltárni egymáshoz kapcsolódó rétegek és tanulási algoritmusok segítségével. Bár ezek a módszerek [Szegedy], [Krizhevsky] sok osztály/kép esetén is jól működnek, igen nagy a számítási és memória igényük a mobil és autonóm rendszerek lehetőségeihez mérve.
Mindezekkel szemben a célunk olyan hatékony és mérsékelt erőforrás igényű módszerek kidolgozása 3Ds objektum-felismeréshez, amelyek:
• 2Ds és 3Ds szenzorok adatainak fuzionálására képesek.
• A szegmentálást gyenge „structure from motion” megoldással segítik, mivel a mélységi információ alapján általában jól elkülöníthetőek az objektumok. Olyan módszerekre gondolunk, amelyek képesek a nagy mélységi változást gyors becslésekkel detektálni (pl. sztereo diszparitás által).
• Szemantikus/tanulás alapú szegmentálásra képesek: magas dimenziójú leírók feldolgozásával (pl. Linear Discriminant Analysis, osztályozás) elemzik a régiókat és él területeket, hogy segítsék a felismerést.

Az új eljárások kifejlesztése C/Java/Matlab környezetben történik angol nyelvű szakirodalom feldolgozása alapján, megfelelő nyelvi és programozási képességek szükségesek.

A kutatási téma előzményei az alábbi közleményekben találhatóak:

M. Bar, Viewpoint dependency in visual object recognition does not necessarily imply viewer-centered representation. Journal of Cognitive Neuroscience, 2001, 13.6: 793-799.
L. Czúni, M. Rashad, Lightweight Video Object Recognition based on Sensor Fusion, International Workshop on Computational Intelligence for Multimedia Understanding (IWCIM). (2015) 1–5.
L. Czúni, M. Rashad, View Centered Video-based Object Recognition for Lightweight Devices, International Conference on Systems, Signals and Image Processing (IWSSIP). (2016) 1–4.
M. Irani, P. Anandan, About Direct Methods, International Workshop on Vision Algorithms, Springer Berlin Heidelberg. (1999) 267–277.
P. H. Torr, A. Zisserman, Feature based Methods for Structure and Motion Estimation, International Workshop on Vision Algorithms, Springer Berlin Heidelberg. (1999) 278–294.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR 2015, 2015.
A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classiﬁcation with deep convolutional neural networks,” in Advances in Neural Information Processing Systems 25, P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, Eds., 2012, pp. 1106–1114.

felvehető hallgatók száma: 1

Jelentkezési határidő: 2017-10-30