面向包容性和公平语音识别的口音语音聚类和挖掘

Aug, 2024

面向包容性和公平语音识别的口音语音聚类和挖掘

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

Jaeyoung Kim, Han Lu, Soheil Khorram, Anshuman Tripathi, Qian Zhang...

TL;DR本研究针对现代自动语音识别系统在对少数口音的识别能力不足的问题，提出了口音聚类和挖掘方案，以实现公平的语音识别。通过监督或无监督预训练、分布鲁棒优化和无监督聚类等方法，显著提高了对小样本口音语音的识别性能，特别是在对印度口音的微调中，分别实现了10.0%和5.3%的相对提升。

Abstract

Modern automatic Speech Recognition (ASR) systems are typically trained on more than tens of thousands hours of speech data, which is one of the main factors for their great success. However, the distribution of such data is typically biased towards common accents or typical speech pat

发现论文，激发创造

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

CommonAccent：基于Common Voice的大型声学预训练模型探索口音分类

本文介绍了使用ECAPA-TDNN和Wav2Vec 2.0 / XLSR体系结构进行多语言口音分类的简单操作方法，并以Common Voice数据集为基础，在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明，将口音信息与ASR框架的其他部分相结合可以减轻口音识别错误。

May, 2023

使用Common Voice数据集建立公平的语音识别系统

本文使用法语Common Voice数据集对wav2vec~2.0模型的偏见进行计量, 通过对多种固定大小的、精心制作的训练集进行微调, 证明了演讲者多样性的重要性, 并对Common Voice语料库进行了彻底分析, 发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

通过无监督聚类提高端到端语音识别的公平性和鲁棒性

本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性，通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征，实现对任何人群的提高，特别是在不同口音情境下显示出明显改进。

Jun, 2023

低资源端到端口音语音识别的多遍训练和交叉信息融合

本研究提出了一种基于Conformer的架构，即Aformer，利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息，并提出了多通道训练和三种跨信息融合方法，用于从Aformer的通用编码器和口音编码器中有效地融合信息，实验结果表明，该方法在口音英语和普通话ASR任务上相对于强基线Conformer的6个领域内外测试数据的单词/字符错误率降低了10.2％到24.5％。

Jun, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在ASR编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达37%），还在未知口音上获得了最高5%的相对改进。同时，我们还在L2Artic数据集上展示了零-shot传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

基于无监督文本到语音合成的数据增强的口音语音识别的改进

本文研究了无监督文本到语音合成作为数据增强方法，以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统，可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据，并与现有的无口音语音数据结合，用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中，进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库，而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明，将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型，相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型，可以减小6.1％相对字错误率。

Jul, 2024

LAHAJA：评估印地语自动语音识别系统的多口音基准

本研究针对印地语自动语音识别（ASR）系统在多口音下评估的不足，提出了LAHAJA基准，包含了来自132名讲者的12.5小时各种主题的印地语音频。研究发现，基于多语言和良好讲者多样性的训练模型显著优于现有模型，并指出在北东和南印度讲者的表现尤其较差，特别是在涉及命名实体和专业术语的内容中。

Aug, 2024