témavezető: Csáji Balázs Csanád
helyszín (magyar oldal): SZTAKI: Számítástechnikai és Automatizálási Kutatóintézet helyszín rövidítés: SZTAK
A kutatási téma leírása:
A megerősítéses tanulás (RL) a gépi tanulás egyik fő ága, amely egy bizonytalan és dinamikusan változó rendszerrel való szekvenciális interakcióból (állapot- és költség-visszacsatolások alapján) való tanulással foglalkozik. A cél egy olyan irányítási politika (döntési stratégia) megtalálása, amely hosszútávon minimalizálja a döntéshozó várható (diszkontált vagy átlagos) költségeit. Az RL matematikai megalapozását a Markov döntési problémák (MDP) képezik; azonban, a klasszikus MDP elmélettel ellentétben, a megerősítéses tanuláskor a környezet modellje tipikusan nem áll rendelkezésre, ezért a dinamika ill. a költségek becslése és a rendszerrel való költség-minimalizálásra irányuló interakció egyszerre történik. Ugyanakkor, ez a két cél – a rendszer felfedezése és az eddig gyűjtött ismeretek kihasználása – egymás ellen hatnak, amely az RL egyik fő problémájához vezet (felfedezés vs. kihasználás / becslés vs. irányítás). A klasszikus RL módszerek – például a Q- és a TD(lambda) tanulás – elméleti garanciái tipikusan aszimptotikusak, és vagy táblázatos vagy lineáris függvény approximációt feltételeznek. Az RL aktuális kihívásai közé sorolhatók a nem-aszimptotikus (és eloszlás-független) garanciákkal rendelkező RL módszerek, részlegesen megfigyelhető és változó dinamikájú környezetek, a mély tanulás és a megerősítéses tanulás kapcsolata, és a felfedezés-kihasználás problémájának beható vizsgálata, akár leegyszerűsített problémák esetén (mint amilyenek például a többkarú- ill. kontextuális bandita problémák). Egy másik kutatási irány lehet elosztott RL algoritmusok tanulmányozása, ahol a lokális vs. globális információ ill. döntéshozás hatásainak vizsgálata az egyik fő cél. Végül az RL szempontjából alapvető fontosságú a különböző sztochasztikus approximációs (pl., sztochasztikus gradiens) algoritmusok kutatása (különösen MDP-k esetén), konzisztenciájuk, számítási- és minta bonyolultságuk és gyorsítási lehetőségeik elemzése.
előírt nyelvtudás: angol további elvárások: Szilárd valószínűségszámítási és statisztikai alapismeretek, ajánlott Matlab és/vagy Python tudás.
felvehető hallgatók száma: 2
Jelentkezési határidő: 2023-05-31
2024. IV. 17. ODT ülés Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).