CommonAccent：基于 Common Voice 的大型声学预训练模型探索口音分类

MMMay, 2023

CommonAccent：基于 Common Voice 的大型声学预训练模型探索口音分类

CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice

Juan Zuluaga-Gomez, Sara Ahmed, Danielius Visockas, Cem Subakan

TL;DR本文介绍了使用 ECAPA-TDNN 和 Wav2Vec 2.0 / XLSR 体系结构进行多语言口音分类的简单操作方法，并以 Common Voice 数据集为基础，在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明，将口音信息与 ASR 框架的其他部分相结合可以减轻口音识别错误。

Abstract

Despite the recent advancements in automatic speech recognition (ASR), the recognition of accented speech still remains a dominant problem. In order to create more inclusive ASR systems, research has shown that t

automatic speech recognition accented speech accent classification ecapa-tdnn wav2vec 2.0/xlsr

发现论文，激发创造

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达 37%），还在未知口音上获得了最高 5% 的相对改进。同时，我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

通用手机：用于鲁棒声学建模的多语言数据集

本研究介绍了多语言语音数据集 Common Phone，用其于 Wav2Vec 2.0 音频模型的参数训练并取得了 18.1% 的识别率，提供了可靠的注音，从而缩小了声学模型应用于实际场景的差距。

Jan, 2022

地理区域近似场景下的低资源口音分类：法庭和社会语音学视角

本文探讨了不同语音机器学习模型及分类器在地方口音识别方面的应用，发现传统方法的性能也值得关注，并证实了一种新方法测量社会语音变化。

Jun, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

Thai Wav2Vec2.0 在 CommonVoice V8 上的应用

为了改进泰语自动语音识别（ASR）模型在开源数据上的表现，我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型，并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。

Aug, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

爱尔兰口音识别研究

研究使用声学分类模型和文本分类器来识别爱尔兰方言，以便将其纳入语音识别管道以增强精度。ECAPA-TDNN 是最佳表现的模型之一，可将其输出与文本模型的输出相结合以进一步提高准确性。作者发现该模型在鉴别阿尔斯特方言方面表现最佳，但在区分康纳赫特方言和蒙斯特方言方面具有挑战性。

Jul, 2023

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019