Login
 Forum
 
 
Thesis topic proposal
 
Balázs Csanád Csáji
Megerősítéses tanulás

THESIS TOPIC PROPOSAL

Institute: Eötvös Loránd University, Budapest
computer sciences
Doctoral School of Informatics

Thesis supervisor: Balázs Csanád Csáji
Location of studies (in Hungarian): SZTAKI: Számítástechnikai és Automatizálási Kutatóintézet
Abbreviation of location of studies: SZTAK


Description of the research topic:

A megerősítéses tanulás (RL) a gépi tanulás egyik fő ága, amely egy bizonytalan és dinamikusan változó rendszerrel való szekvenciális interakcióból (állapot- és költség-visszacsatolások alapján) való tanulással foglalkozik. A cél egy olyan irányítási politika (döntési stratégia) megtalálása, amely hosszútávon minimalizálja a döntéshozó várható (diszkontált vagy átlagos) költségeit. Az RL matematikai megalapozását a Markov döntési problémák (MDP) képezik; azonban, a klasszikus MDP elmélettel ellentétben, a megerősítéses tanuláskor a környezet modellje tipikusan nem áll rendelkezésre, ezért a dinamika ill. a költségek becslése és a rendszerrel való költség-minimalizálásra irányuló interakció egyszerre történik. Ugyanakkor, ez a két cél – a rendszer felfedezése és az eddig gyűjtött ismeretek kihasználása – egymás ellen hatnak, amely az RL egyik fő problémájához vezet (felfedezés vs. kihasználás / becslés vs. irányítás). A klasszikus RL módszerek – például a Q- és a TD(lambda) tanulás – elméleti garanciái tipikusan aszimptotikusak, és vagy táblázatos vagy lineáris függvény approximációt feltételeznek. Az RL aktuális kihívásai közé sorolhatók a nem-aszimptotikus (és eloszlás-független) garanciákkal rendelkező RL módszerek, részlegesen megfigyelhető és változó dinamikájú környezetek, a mély tanulás és a megerősítéses tanulás kapcsolata, és a felfedezés-kihasználás problémájának beható vizsgálata, akár leegyszerűsített problémák esetén (mint amilyenek például a többkarú- ill. kontextuális bandita problémák). Egy másik kutatási irány lehet elosztott RL algoritmusok tanulmányozása, ahol a lokális vs. globális információ ill. döntéshozás hatásainak vizsgálata az egyik fő cél. Végül az RL szempontjából alapvető fontosságú a különböző sztochasztikus approximációs (pl., sztochasztikus gradiens) algoritmusok kutatása (különösen MDP-k esetén), konzisztenciájuk, számítási- és minta bonyolultságuk és gyorsítási lehetőségeik elemzése.

Kulcsszavak: felfedezés-kihasználás dilemma, sztochasztikus approximáció, nem-aszimptotikus garanciák, elosztott tanulás, részleges megfigyelhetőség, változó környezetek, bandita algoritmusok

Required language skills: angol
Further requirements: 
Szilárd valószínűségszámítási és statisztikai alapismeretek, ajánlott Matlab és/vagy Python tudás.

Number of students who can be accepted: 2

Deadline for application: 2024-05-31


2024. IV. 17.
ODT ülés
Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).

 
All rights reserved © 2007, Hungarian Doctoral Council. Doctoral Council registration number at commissioner for data protection: 02003/0001. Program version: 2.2358 ( 2017. X. 31. )