ODT - THESIS TOPIC: Balázs Csanád Csáji: Megerősítéses tanulás

Megerősítéses tanulás

THESIS TOPIC PROPOSAL

Institute: Eötvös Loránd University, Budapest
computer sciences
Doctoral School of Informatics

Thesis supervisor: Balázs Csanád Csáji
Location of studies (in Hungarian): SZTAKI: Számítástechnikai és Automatizálási Kutatóintézet
Abbreviation of location of studies: SZTAK

Description of the research topic:

A megerősítéses tanulás (RL) a gépi tanulás egyik fő ága, amely egy bizonytalan és dinamikusan változó rendszerrel való szekvenciális interakcióból (állapot- és költség-visszacsatolások alapján) való tanulással foglalkozik. A cél egy olyan irányítási politika (döntési stratégia) megtalálása, amely hosszútávon minimalizálja a döntéshozó várható (diszkontált vagy átlagos) költségeit. Az RL matematikai megalapozását a Markov döntési problémák (MDP) képezik; azonban, a klasszikus MDP elmélettel ellentétben, a megerősítéses tanuláskor a környezet modellje tipikusan nem áll rendelkezésre, ezért a dinamika ill. a költségek becslése és a rendszerrel való költség-minimalizálásra irányuló interakció egyszerre történik. Ugyanakkor, ez a két cél – a rendszer felfedezése és az eddig gyűjtött ismeretek kihasználása – egymás ellen hatnak, amely az RL egyik fő problémájához vezet (felfedezés vs. kihasználás / becslés vs. irányítás). A klasszikus RL módszerek – például a Q- és a TD(lambda) tanulás – elméleti garanciái tipikusan aszimptotikusak, és vagy táblázatos vagy lineáris függvény approximációt feltételeznek. Az RL aktuális kihívásai közé sorolhatók a nem-aszimptotikus (és eloszlás-független) garanciákkal rendelkező RL módszerek, részlegesen megfigyelhető és változó dinamikájú környezetek, a mély tanulás és a megerősítéses tanulás kapcsolata, és a felfedezés-kihasználás problémájának beható vizsgálata, akár leegyszerűsített problémák esetén (mint amilyenek például a többkarú- ill. kontextuális bandita problémák). Egy másik kutatási irány lehet elosztott RL algoritmusok tanulmányozása, ahol a lokális vs. globális információ ill. döntéshozás hatásainak vizsgálata az egyik fő cél. Végül az RL szempontjából alapvető fontosságú a különböző sztochasztikus approximációs (pl., sztochasztikus gradiens) algoritmusok kutatása (különösen MDP-k esetén), konzisztenciájuk, számítási- és minta bonyolultságuk és gyorsítási lehetőségeik elemzése.

Kulcsszavak: felfedezés-kihasználás dilemma, sztochasztikus approximáció, nem-aszimptotikus garanciák, elosztott tanulás, részleges megfigyelhetőség, változó környezetek, bandita algoritmusok

Required language skills: angol
Further requirements:
Szilárd valószínűségszámítási és statisztikai alapismeretek, ajánlott Matlab és/vagy Python tudás.

Number of students who can be accepted: 2

Deadline for application: 2024-05-31