Bejelentkezés
 Fórum
 
 
Témakiírás
 
Csáji Balázs Csanád
Megerősítéses tanulás

TÉMAKIÍRÁS

Intézmény: Eötvös Loránd Tudományegyetem
informatikai tudományok
Informatika Doktori Iskola

témavezető: Csáji Balázs Csanád
helyszín (magyar oldal): SZTAKI: Számítástechnikai és Automatizálási Kutatóintézet
helyszín rövidítés: SZTAK


A kutatási téma leírása:

A megerősítéses tanulás (RL) a gépi tanulás egyik fő ága, amely egy bizonytalan és dinamikusan változó rendszerrel való szekvenciális interakcióból (állapot- és költség-visszacsatolások alapján) való tanulással foglalkozik. A cél egy olyan irányítási politika (döntési stratégia) megtalálása, amely hosszútávon minimalizálja a döntéshozó várható (diszkontált vagy átlagos) költségeit. Az RL matematikai megalapozását a Markov döntési problémák (MDP) képezik; azonban, a klasszikus MDP elmélettel ellentétben, a megerősítéses tanuláskor a környezet modellje tipikusan nem áll rendelkezésre, ezért a dinamika ill. a költségek becslése és a rendszerrel való költség-minimalizálásra irányuló interakció egyszerre történik. Ugyanakkor, ez a két cél – a rendszer felfedezése és az eddig gyűjtött ismeretek kihasználása – egymás ellen hatnak, amely az RL egyik fő problémájához vezet (felfedezés vs. kihasználás / becslés vs. irányítás). A klasszikus RL módszerek – például a Q- és a TD(lambda) tanulás – elméleti garanciái tipikusan aszimptotikusak, és vagy táblázatos vagy lineáris függvény approximációt feltételeznek. Az RL aktuális kihívásai közé sorolhatók a nem-aszimptotikus (és eloszlás-független) garanciákkal rendelkező RL módszerek, részlegesen megfigyelhető és változó dinamikájú környezetek, a mély tanulás és a megerősítéses tanulás kapcsolata, és a felfedezés-kihasználás problémájának beható vizsgálata, akár leegyszerűsített problémák esetén (mint amilyenek például a többkarú- ill. kontextuális bandita problémák). Egy másik kutatási irány lehet elosztott RL algoritmusok tanulmányozása, ahol a lokális vs. globális információ ill. döntéshozás hatásainak vizsgálata az egyik fő cél. Végül az RL szempontjából alapvető fontosságú a különböző sztochasztikus approximációs (pl., sztochasztikus gradiens) algoritmusok kutatása (különösen MDP-k esetén), konzisztenciájuk, számítási- és minta bonyolultságuk és gyorsítási lehetőségeik elemzése.

Kulcsszavak: felfedezés-kihasználás dilemma, sztochasztikus approximáció, nem-aszimptotikus garanciák, elosztott tanulás, részleges megfigyelhetőség, változó környezetek, bandita algoritmusok

előírt nyelvtudás: angol
további elvárások: 
Szilárd valószínűségszámítási és statisztikai alapismeretek, ajánlott Matlab és/vagy Python tudás.

felvehető hallgatók száma: 2

Jelentkezési határidő: 2023-05-31


2024. IV. 17.
ODT ülés
Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).

 
Minden jog fenntartva © 2007, Országos Doktori Tanács - a doktori adatbázis nyilvántartási száma az adatvédelmi biztosnál: 02003/0001. Program verzió: 2.2358 ( 2017. X. 31. )