A modern mesterséges intelligencia alkalmazások túlnyomórészt olyan komponensekből építkeznek, amelyeket gépi tanulás segítségével optimalizálunk vagy hozunk létre. A tanulás véges számú példa segítségével történik. Az elmúlt években világossá vált, hogy ezek az automatikusan létrehozott komponensek furcsán viselkednek, általában nem világos, hogy milyen módon hoznak döntéseket, és mesterségesen létrehozott un. adversarial inputok segítségével tetszőleges viselkedésre vehetők rá (pl. láthatatlan zaj hozzáadásával egy kép címkéje tetszőlegesen befolyásolható). A kutatási feladat lényege, hogy gépi tanulással létrehozott modelleket, algoritmusokat vizsgáljunk, és módszereket dolgozzunk ki abból a célból, hogy a különböző modellek, és a belőlük épített rendszerek védettek legyenek különböző támadásokkal szemben, és a döntéseik valamilyen jól definiált értelemben értelmezhetőek legyenek. Külön érdekes az interpretálhatóság és robosztusság kapcsolatának a vizsgálata, mivel feltehető, hogy ez a két tulajdonság összefügg.
előírt nyelvtudás: angol felvehető hallgatók száma: 3