面向包容性和公平语音识别的口音语音聚类和挖掘
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
Mar, 2023
本文介绍了使用ECAPA-TDNN和Wav2Vec 2.0 / XLSR体系结构进行多语言口音分类的简单操作方法,并以Common Voice数据集为基础,在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明,将口音信息与ASR框架的其他部分相结合可以减轻口音识别错误。
May, 2023
本文使用法语Common Voice数据集对wav2vec~2.0模型的偏见进行计量, 通过对多种固定大小的、精心制作的训练集进行微调, 证明了演讲者多样性的重要性, 并对Common Voice语料库进行了彻底分析, 发现了应该被这个数据集的用户考虑的重要缺陷。
Jun, 2023
本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性,通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征,实现对任何人群的提高,特别是在不同口音情境下显示出明显改进。
Jun, 2023
本研究提出了一种基于Conformer的架构,即Aformer,利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息,并提出了多通道训练和三种跨信息融合方法,用于从Aformer的通用编码器和口音编码器中有效地融合信息,实验结果表明,该方法在口音英语和普通话ASR任务上相对于强基线Conformer的6个领域内外测试数据的单词/字符错误率降低了10.2%到24.5%。
Jun, 2023
通过使用可训练的码书的交叉注意力,我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法,该方法可以捕捉特定口音的信息,并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练,结果显示我们的方法不仅在已知的英语口音上获得显著性能提升(词错误率相对改进高达37%),还在未知口音上获得了最高5%的相对改进。同时,我们还在L2Artic数据集上展示了零-shot传输设置的优势,并与基于口音对抗训练的其他方法进行了性能比较。
Oct, 2023
本文研究了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统,可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据,并与现有的无口音语音数据结合,用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中,进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库,而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明,将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型,相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型,可以减小6.1%相对字错误率。
Jul, 2024
本研究针对印地语自动语音识别(ASR)系统在多口音下评估的不足,提出了LAHAJA基准,包含了来自132名讲者的12.5小时各种主题的印地语音频。研究发现,基于多语言和良好讲者多样性的训练模型显著优于现有模型,并指出在北东和南印度讲者的表现尤其较差,特别是在涉及命名实体和专业术语的内容中。
Aug, 2024