通过使用可训练的码书的交叉注意力,我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法,该方法可以捕捉特定口音的信息,并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练,结果显示我们的方法不仅在已知的英语口音上获得显著性能提升(词错误率相对改进高达 37%),还在未知口音上获得了最高 5% 的相对改进。同时,我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势,并与基于口音对抗训练的其他方法进行了性能比较。
Oct, 2023
本文致力于提高自动语音识别系统的准确性与泛化能力,运用多种口音以构建微调数据集用以提高模型的鲁棒性,同时展示多领域数据集优化效果。
Mar, 2023
本研究提出一种基于使用原生语言(西班牙语和印度语)预训练的端到端循环神经网络多任务学习模型,成功实现对英语口音的识别,相比于其他训练方法,此方法在减小语音中字符错误率方面表现更加优异。
Apr, 2019
该研究论文探讨了自动语音识别(ASR)系统在不同语音口音上的普适性问题,分析了当前最有前景的口音识别方法,并强调了其中的关键挑战。
Apr, 2021
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法,并在 4 个口音种类上获得了显著的词错误率降低。
Jul, 2023
通过元学习技术,本研究提出了一种快速扩展普通话语音识别中口音领域的方法,有效地改善了普通话语音识别在口音方面的性能,比其他方法相对提高了约 3%。
研究使用对抗学习来实现口音转换,能够将说话者的声音身份保留下来,并可将未知说话者的话语转换为多种口音,主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。
Nov, 2022
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的 8%的改进。
Jul, 2022
使用少量的长形式非洲裔美国英语(AAE)数据,通过将分类器输出与地理信息相结合,优化洲外识别器,从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%,而不降低 MAE 的质量。
Sep, 2023