你来自哪里?让我猜猜!索拉尼库尔德语言言尔识别
一篇介绍用于2017年原生语种识别共享任务的机器学习方法的论文,该方法组合了几个内核(包括从文章或演讲转录中提取的字符p-grams和音频记录的低维表示),并使用核判别分析(KDA)来分类。使用该方法,研究团队在不同的竞赛分类中获得了优异的得分(达到了最好的口语和混合跟踪的得分),证明了该方法的有效性。
Jul, 2017
通过对噪音广播档案的无监督的语音表示学习方法进行调查,我们的贡献包括发布两个数据集到研究社区以及共享受过训练的语音编码器,最终分享了Maninka、Pular 和Susu等语言的首个语音识别模型,为服务于数字鸿沟中穷困落后的人群而提供了一种道路。
Apr, 2021
本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能,揭示不同说话者数据选取对模型性能的影响,表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。
Aug, 2022
本研究检验了针对苏丹语方言设计自动语音识别模型的可行性,并使用卷积神经网络设计了一种端到端语音识别模型,该模型在苏丹方言数据集上取得了73.67%的平均标签错误率
Dec, 2022
该研究提出了一个涵盖库尔德语(Sorani)中几个实体类别的数据集,涉及命名实体识别等自然语言处理领域,并公开该数据集供非商业用途,以填补目前资源匮乏的局面。
Jan, 2023
在阿拉伯语自动语音识别(ASR)方面存在独特的挑战,为了克服这些挑战,本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型,引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上,我们的最佳蒸馏模型整体表现优于现有模型(SeamlessM4T-large-v2,WER=47.0%)和教师模型(Whisper-large-v2,WER=55.1%),并且在新的方言数据上的平均性能(WER=56.9%)超过了所有其他模型。通过错误分析,揭示了这些模型在方言数据上表现不佳的主要错误类型。
Jun, 2024
这篇论文介绍了GigaSpeech 2,一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库,它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程,以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性,并且相比于Whisper large-v3模型,基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时,与商业服务相比,基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。
Jun, 2024