Jun, 2022

印度低资源语言的带注释语音语料库:Awadhi、Bhojpuri、Braj 和 Magahi

TL;DR本文介绍我们正在进行的工作,使用语言学数据收集的领域方法,为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法,大部分是在 COVID-19 疫情期间进行的,目的之一是为讲这些语言的低收入群体提供额外的收入来源,并讨论了这些语言的自动语音识别系统的基线实验结果。