ODT - témakiírás: Csáji Balázs Csanád: Megerősítéses tanulás

Megerősítéses tanulás

TÉMAKIÍRÁS

Intézmény: Eötvös Loránd Tudományegyetem
informatikai tudományok
Informatika Doktori Iskola

témavezető: Csáji Balázs Csanád
helyszín (magyar oldal): SZTAKI: Számítástechnikai és Automatizálási Kutatóintézet
helyszín rövidítés: SZTAK

A kutatási téma leírása:

A megerősítéses tanulás (RL) a gépi tanulás egyik fő ága, amely egy bizonytalan és dinamikusan változó rendszerrel való szekvenciális interakcióból (állapot- és költség-visszacsatolások alapján) való tanulással foglalkozik. A cél egy olyan irányítási politika (döntési stratégia) megtalálása, amely hosszútávon minimalizálja a döntéshozó várható (diszkontált vagy átlagos) költségeit. Az RL matematikai megalapozását a Markov döntési problémák (MDP) képezik; azonban, a klasszikus MDP elmélettel ellentétben, a megerősítéses tanuláskor a környezet modellje tipikusan nem áll rendelkezésre, ezért a dinamika ill. a költségek becslése és a rendszerrel való költség-minimalizálásra irányuló interakció egyszerre történik. Ugyanakkor, ez a két cél – a rendszer felfedezése és az eddig gyűjtött ismeretek kihasználása – egymás ellen hatnak, amely az RL egyik fő problémájához vezet (felfedezés vs. kihasználás / becslés vs. irányítás). A klasszikus RL módszerek – például a Q- és a TD(lambda) tanulás – elméleti garanciái tipikusan aszimptotikusak, és vagy táblázatos vagy lineáris függvény approximációt feltételeznek. Az RL aktuális kihívásai közé sorolhatók a nem-aszimptotikus (és eloszlás-független) garanciákkal rendelkező RL módszerek, részlegesen megfigyelhető és változó dinamikájú környezetek, a mély tanulás és a megerősítéses tanulás kapcsolata, és a felfedezés-kihasználás problémájának beható vizsgálata, akár leegyszerűsített problémák esetén (mint amilyenek például a többkarú- ill. kontextuális bandita problémák). Egy másik kutatási irány lehet elosztott RL algoritmusok tanulmányozása, ahol a lokális vs. globális információ ill. döntéshozás hatásainak vizsgálata az egyik fő cél. Végül az RL szempontjából alapvető fontosságú a különböző sztochasztikus approximációs (pl., sztochasztikus gradiens) algoritmusok kutatása (különösen MDP-k esetén), konzisztenciájuk, számítási- és minta bonyolultságuk és gyorsítási lehetőségeik elemzése.

Kulcsszavak: felfedezés-kihasználás dilemma, sztochasztikus approximáció, nem-aszimptotikus garanciák, elosztott tanulás, részleges megfigyelhetőség, változó környezetek, bandita algoritmusok

előírt nyelvtudás: angol
további elvárások:
Szilárd valószínűségszámítási és statisztikai alapismeretek, ajánlott Matlab és/vagy Python tudás.

felvehető hallgatók száma: 2

Jelentkezési határidő: 2023-05-31