学习跨语言映射提升低资源语音识别的数据增强
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用DNN的分层映射技术和多任务DNN模型,分别在印度语种中取得9.66% ~ 27.24%不等的相对准确率提升。
Jan, 2022
本篇论文提出了一种适应性激活网络,用于深度学习ASR模型的上层,并将不同的激活函数应用于不同的语言,通过交叉语言学习和多语言学习优化模型,达到了在IARPA Babel数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升,结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。
May, 2022
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的8%的改进。
Jul, 2022
在多语种语音识别中,为了弥补低资源语言的数据匮乏,人们广泛使用多功能语音识别。 本文提出了一种新颖的混合DNN-HMM声学模型融合方法,实现了多种低资源语言的跨语音识别,且相对于多功能和单语基线,后验融合得到了14.65%和6.5%的相对收益。
Jul, 2022
本篇论文描述了一种基于数据增强的方法,使用wav2letter ++模型对Quechua进行语音识别的实验。通过将合成数据与文本增强相结合,将基本模型的识别错误率降低了8.73%,最终ASR模型的识别错误率为22.75%。
Jul, 2022
该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性,结果表明,使用这两种技术,可将错误率降低35%。
May, 2023
本研究针对低资源自动语音识别(ASR)技术,关注两种濒危的南岛语言Amis和Seediq,探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案,利用自监督学习在低资源环境下进行预训练,从而显著提高ASR性能,展示了通过跨语言迁移学习进行数据增强的可行性和潜力。
Sep, 2024
本研究解决了将低资源语言整合到多语种自动语音识别系统中的挑战。通过在持续多语种学习背景下引入加权交叉熵的方法,研究表明该方法对低资源语言的语音识别效果显著提高,词错误率减少了6.69%,并且在六种语言中平均减少了3.29%的错误率,而高资源语言的表现未受到影响。
Sep, 2024