Login
 Forum
 
 
Thesis topic proposal
 
Többnyelvű beszédfelismerés

THESIS TOPIC PROPOSAL

Institute: Budapest University of Technology and Economics
electrical engineering
Doctoral School of Electrical Engineering

Thesis supervisor: Péter Mihajlik
Location of studies (in Hungarian): Department of Telecommunications and Media Informatics
Abbreviation of location of studies: TMIT


Description of the research topic:

A beszédfelismerés elsődleges célja a beszédet tartalmazó hanghullám információtartalmának szöveggé alakítása. Bár adott témakör és nyelv esetén a szófelismerés pontossága magas lehet a korszerű, mélytanuláson alapuló módszereknek köszönhetően, a célnyelvtől eltérő nyelvű beszéd (kódváltás) detektálása önmagában is kihívást jelent. További kihívás a második nyelvű beszéd szövegtartalmának automatikus leírása a hang alapján, különösen akkor, ha több második nyelv lehetősége merül fel. A többnyelvű beszédfelismerés problematikái az egynyelvű beszédfelismerő rendszereket is érintik, hiszen idegen nyelvű elemek (pl. személynevek vagy egyéb névelemek) bármely körülmények között előfordulhatnak, és ezek kiejtése tipikusan vagy nem illeszkedik az adott nyelv graféma-fonéma leképezési rendszerébe – vagy eleve már a második nyelvű névelem fonémakészlete sem illeszkedik az eredeti nyelvhez. A többnyelvű beszédfelismerés témaköre tehát szerteágazó, azonban a kutatási eredmények felhasználhatósága is az, többek között a beszédfordítás hatékonyságának javításában kulcsfontosságú lehet. A kutatást segítik a ma már rendelkezésre álló többnyelvű beszédadatbázisok és különböző nyelvi erőforrások, valamint a korszerű gépi tanulási eszközök és infrastruktúrák (pl. GPU-gridek).
Open problems:
- Többszintű (nyelvi-, kiejtési és akusztikai) modellezés beszédfelismerési céllal több nyelven.
- Beszédfelismerési nyelvmodellek szöveges tanítóadatbázisában az idegen nyelvű részletek, szavak, kifejezések detekciója és kategorizálása.
- Beszédfelismerési akusztikus modellek hang- és szövegadatbázisában a kódváltások felismerése, kategorizálása.
- Többnyelvű kiejtésmodellezés fonéma és graféma alapon.
- Nyelvfelismerés egynyelvű hanganyagok esetén.
- Kódváltás detekciója / nyelv felismerése független teszt hanganyagban.
- Folyamatos többnyelvű felismerés nyelvenként megfelelő szöveges leirattal.

Required language skills: angol
Number of students who can be accepted: 1

Deadline for application: 2019-06-14


2024. IV. 17.
ODT ülés
Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).

 
All rights reserved © 2007, Hungarian Doctoral Council. Doctoral Council registration number at commissioner for data protection: 02003/0001. Program version: 2.2358 ( 2017. X. 31. )