跨口音语音识别上的快速适应学习

Mar, 2020

跨口音语音识别上的快速适应学习

Learning Fast Adaptation on Cross-Accented Speech Recognition

Genta Indra Winata, Samuel Cahyawijaya, Zihan Liu, Zhaojiang Lin, Andrea Madotto...

TL;DR研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Abstract

local dialects influence people to pronounce words of the same language differently from each other. The great variability and complex characteristics of accents creates a major challenge for training a robust and accen

local dialects automatic speech recognition accent-agnostic model-agnostic meta-learning word error rate

发现论文，激发创造

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达 37%），还在未知口音上获得了最高 5% 的相对改进。同时，我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

通过剩余适配器的语音表示的口音适应

该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法，并在 4 个口音种类上获得了显著的词错误率降低。

Jul, 2023

一种用于普通话语音识别中快速扩充口音领域的元学习方案

通过元学习技术，本研究提出了一种快速扩展普通话语音识别中口音领域的方法，有效地改善了普通话语音识别在口音方面的性能，比其他方法相对提高了约 3%。

Jul, 2023

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

跨语言声学 - 语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的 8％的改进。

Jul, 2022

利用音频分类提高非洲裔美国人英语的语音识别

使用少量的长形式非洲裔美国英语（AAE）数据，通过将分类器输出与地理信息相结合，优化洲外识别器，从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%，而不降低 MAE 的质量。

Sep, 2023