Bejelentkezés
 Fórum
 
 
Témakiírás
 
Mélytanulási technikák alkalmazása gépi beszédfefelismerésben

TÉMAKIÍRÁS

Intézmény: Budapesti Műszaki és Gazdaságtudományi Egyetem
informatikai tudományok
Informatikai Tudományok Doktori Iskola

témavezető: Mihajlik Péter
helyszín (magyar oldal): Távközlési és Médiainformatikai Tanszék
helyszín rövidítés: TMIT


A kutatási téma leírása:

A hatékony gépi beszédfelismerés (Automatic Speech Recognition: ASR) mindig is gépi tanulási alapokon állt, például a rejtett Markov-modellek (Hidden Markov-Models: HMM), döntési fák, n-gram modellek alkalmazása révén. Az utóbbi 10 évben azonban a mélytanulás bevezetése révén forradalmi változásokat tapasztalhattunk: az emberivel vetekedő szófelismerési pontosságokat, máig töretlen fejlődést. Különösen ígéretes irány az elejétől végéig azaz "end-to-end" mélyneuronhálóra épülő ASR megközelítés. Akár a hibrid (HMM alapú) akár az end-to-end ASR irányzatot nézzük, a jó eredmények kulcsa a megfelelő mélytanulási technikák alkalmazása, amelyek viszont jellemzően mind több és több adatot valamint számítási erőforrást igényelnek. Így a nyelvi erőforrásokkal gazdagon ellátott nyelvek előnyt élveznek, miközbben a világ nyelveinek túlnyomó része tanítóanyagok tekintetében erősen alulreprezentált. Ezért különösen fontos feladat a különféle mélytanulási technikák kisebb nyelvekre történő adaptációjának, skálázásnak, valamint a nyelvek közötti "transfer learning"-nek a vizsgálata. Mindezek a többnyelvű beszédfelismeréshez, mint a beszéd-szöveg átalakítás általános végcéljához is közelebb visznek.

előírt nyelvtudás: Angol
felvehető hallgatók száma: 4

Jelentkezési határidő: 2022-01-31


2024. IV. 17.
ODT ülés
Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).

 
Minden jog fenntartva © 2007, Országos Doktori Tanács - a doktori adatbázis nyilvántartási száma az adatvédelmi biztosnál: 02003/0001. Program verzió: 2.2358 ( 2017. X. 31. )