重音语音识别综述

Apr, 2021

Accented Speech Recognition: A Survey

Arthur Hinsvark, Natalie Delworth, Miguel Del Rio, Quinten McNamara, Joshua Dong...

TL;DR该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Abstract

Automatic Speech Recognition (ASR) systems generalize poorly on accented speech. The phonetic and linguistic variability of accents present hard challenges for ASR systems today in both data collection and modeling stra

发现论文，激发创造

自动识别非母语英语口音中文论文题目中的文本和语音特征的相关性

本文通过简单音频和n-gram特征，达到了近90%的准确识别率，无论问题变化多少，音频特征都不受影响，经验证明这种方法可适用于任何语言的口音识别系统的开发和应用。

Apr, 2018

Earnings-22：野外口音实践基准

本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过4个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了ASR系统普遍出现的误差和关键语音特征对模型表现的影响。

Mar, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

CommonAccent：基于Common Voice的大型声学预训练模型探索口音分类

本文介绍了使用ECAPA-TDNN和Wav2Vec 2.0 / XLSR体系结构进行多语言口音分类的简单操作方法，并以Common Voice数据集为基础，在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明，将口音信息与ASR框架的其他部分相结合可以减轻口音识别错误。

May, 2023

通过剩余适配器的语音表示的口音适应

该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法，并在4个口音种类上获得了显著的词错误率降低。

Jul, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达37%），还在未知口音上获得了最高5%的相对改进。同时，我们还在L2Artic数据集上展示了零-shot传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

利用口音特定码本改进自监督预训练

通过引入可训练的一组针对口音的代码本到自我监督架构中，我们提出了一种针对自我监督学习的口音感知自适应技术。这些可学习的代码本使模型能够在预训练过程中捕获口音特定信息，并在ASR微调期间进一步优化，从而在Mozilla Common Voice数据集上胜过其他所有的口音适应方法，对于见过和没见过的英语口音都有最多9%的相对词错误率减少。

Jul, 2024

基于无监督文本到语音合成的数据增强的口音语音识别的改进

本文研究了无监督文本到语音合成作为数据增强方法，以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统，可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据，并与现有的无口音语音数据结合，用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中，进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库，而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明，将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型，相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型，可以减小6.1％相对字错误率。

Jul, 2024

面向包容性和公平语音识别的口音语音聚类和挖掘

本研究针对现代自动语音识别系统在对少数口音的识别能力不足的问题，提出了口音聚类和挖掘方案，以实现公平的语音识别。通过监督或无监督预训练、分布鲁棒优化和无监督聚类等方法，显著提高了对小样本口音语音的识别性能，特别是在对印度口音的微调中，分别实现了10.0%和5.3%的相对提升。

Aug, 2024