重音语音识别综述
本文通过简单音频和n-gram特征,达到了近90%的准确识别率,无论问题变化多少,音频特征都不受影响,经验证明这种方法可适用于任何语言的口音识别系统的开发和应用。
Apr, 2018
本文介绍了一个收集英语盈利电话会议的语料库,旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准,通过4个商业模型的比较,研究了地区口音对模型表现的影响,以及研究了ASR系统普遍出现的误差和关键语音特征对模型表现的影响。
Mar, 2022
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
Mar, 2023
本文介绍了使用ECAPA-TDNN和Wav2Vec 2.0 / XLSR体系结构进行多语言口音分类的简单操作方法,并以Common Voice数据集为基础,在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明,将口音信息与ASR框架的其他部分相结合可以减轻口音识别错误。
May, 2023
通过使用可训练的码书的交叉注意力,我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法,该方法可以捕捉特定口音的信息,并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练,结果显示我们的方法不仅在已知的英语口音上获得显著性能提升(词错误率相对改进高达37%),还在未知口音上获得了最高5%的相对改进。同时,我们还在L2Artic数据集上展示了零-shot传输设置的优势,并与基于口音对抗训练的其他方法进行了性能比较。
Oct, 2023
通过引入可训练的一组针对口音的代码本到自我监督架构中,我们提出了一种针对自我监督学习的口音感知自适应技术。这些可学习的代码本使模型能够在预训练过程中捕获口音特定信息,并在ASR微调期间进一步优化,从而在Mozilla Common Voice数据集上胜过其他所有的口音适应方法,对于见过和没见过的英语口音都有最多9%的相对词错误率减少。
Jul, 2024
本文研究了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统,可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据,并与现有的无口音语音数据结合,用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中,进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库,而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明,将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型,相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型,可以减小6.1%相对字错误率。
Jul, 2024
本研究针对现代自动语音识别系统在对少数口音的识别能力不足的问题,提出了口音聚类和挖掘方案,以实现公平的语音识别。通过监督或无监督预训练、分布鲁棒优化和无监督聚类等方法,显著提高了对小样本口音语音的识别性能,特别是在对印度口音的微调中,分别实现了10.0%和5.3%的相对提升。
Aug, 2024