带有特定口音码书的口音识别

EMNLPOct, 2023

Accented Speech Recognition With Accent-specific Codebooks

Darshan Prabhu, Preethi Jyothi, Sriram Ganapathy, Vinit Unni

TL;DR通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达 37%），还在未知口音上获得了最高 5% 的相对改进。同时，我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Abstract

speech accents pose a significant challenge to state-of-the-art automatic speech recognition (ASR) systems. Degradation in performance across underrepresented accents is a severe deterrent to the inclusive adoption of ASR. In this work, we propose a novel →

speech accents automatic speech recognition accent adaptation end-to-end asr systems cross-attention

发现论文，激发创造

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

CommonAccent：基于 Common Voice 的大型声学预训练模型探索口音分类

本文介绍了使用 ECAPA-TDNN 和 Wav2Vec 2.0 / XLSR 体系结构进行多语言口音分类的简单操作方法，并以 Common Voice 数据集为基础，在英语、意大利语、德语和西班牙语上建立了新的最先进的英语口音分类。结果表明，将口音信息与 ASR 框架的其他部分相结合可以减轻口音识别错误。

May, 2023

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

通过剩余适配器的语音表示的口音适应

该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法，并在 4 个口音种类上获得了显著的词错误率降低。

Jul, 2023

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

使用语言模型的语言切换语音识别：古吉拉特英语

通过条件化变换器层上的语言 ID，我们提出了两种引入语言特定参数和可解释性以及实现辅助性的时间损失方法，以改进端到端自动语音识别模型的性能。尽管无法显著减少词错误率，但我们的方法在通过仅仅的口语数据预测正确语言方面表现出潜力。我们通过在序列中删除语言 ID 来引入语言预测的正则化，有助于对齐长重复的输出序列。

Mar, 2024

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023