利用口音特定码本改进自监督预训练

Jul, 2024

利用口音特定码本改进自监督预训练

Improving Self-supervised Pre-training using Accent-Specific Codebooks

Darshan Prabhu, Abhishek Gupta, Omkar Nitsure, Preethi Jyothi, Sriram Ganapathy

TL;DR通过引入可训练的一组针对口音的代码本到自我监督架构中，我们提出了一种针对自我监督学习的口音感知自适应技术。这些可学习的代码本使模型能够在预训练过程中捕获口音特定信息，并在ASR微调期间进一步优化，从而在Mozilla Common Voice数据集上胜过其他所有的口音适应方法，对于见过和没见过的英语口音都有最多9%的相对词错误率减少。

Abstract

speech accents present a serious challenge to the performance of state-of-the-art end-to-end automatic speech recognition (ASR) systems. Even with →

发现论文，激发创造

基于门控机制的多音口音适应

本研究采用AST-G与MTL-G框架，研究在多种语音口音情况下的语音识别表现，实验结果表明在减少重听率方面较基线模型有明显提升。

Nov, 2020

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

CommonAccent：基于Common Voice的大型声学预训练模型探索口音分类

本文介绍了使用ECAPA-TDNN和Wav2Vec 2.0 / XLSR体系结构进行多语言口音分类的简单操作方法，并以Common Voice数据集为基础，在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明，将口音信息与ASR框架的其他部分相结合可以减轻口音识别错误。

May, 2023

低资源端到端口音语音识别的多遍训练和交叉信息融合

本研究提出了一种基于Conformer的架构，即Aformer，利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息，并提出了多通道训练和三种跨信息融合方法，用于从Aformer的通用编码器和口音编码器中有效地融合信息，实验结果表明，该方法在口音英语和普通话ASR任务上相对于强基线Conformer的6个领域内外测试数据的单词/字符错误率降低了10.2％到24.5％。

Jun, 2023

通过剩余适配器的语音表示的口音适应

该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法，并在4个口音种类上获得了显著的词错误率降低。

Jul, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达37%），还在未知口音上获得了最高5%的相对改进。同时，我们还在L2Artic数据集上展示了零-shot传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

自监督自适应多语言语音模型的预训练用于语言和方言识别

预训练的基于Transformer的语音模型在下游任务（如自动语音识别和口语语言识别）上表现出了令人瞩目的性能，但领域不匹配的问题仍然是一个挑战。为了解决这个问题，我们提出了自监督自适应预训练（SAPT）来适应下游任务的目标领域和语言。我们将SAPT应用于XLSR-128模型，并研究了该方法在SLID任务中的有效性。实验证明，SAPT在FLEURS基准测试中提高了XLSR的性能，尤其是对于少数语言，增益高达40.1%。我们还在少样本学习设置中对四个不同数据集应用了SAPT，结果显示我们的方法提高了XLSR的样本效率。我们的实验证据强有力地证明，通过自监督实现持续自适应可以提升多语言语音模型的下游性能。

Dec, 2023

基于无监督文本到语音合成的数据增强的口音语音识别的改进

本文研究了无监督文本到语音合成作为数据增强方法，以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统，可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据，并与现有的无口音语音数据结合，用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中，进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库，而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明，将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型，相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型，可以减小6.1％相对字错误率。

Jul, 2024