多领域训练提高口音语音识别

Mar, 2023

Improving Accented Speech Recognition with Multi-Domain Training

Lucas Maison, Yannick Estève

TL;DR本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Abstract

Thanks to the rise of self-supervised learning, automatic speech recognition (ASR) systems now achieve near-human performance on a wide variety of datasets. However, they still lack generalization capability and

self-supervised learning automatic speech recognition robustness fine-tuning datasets accent variations

发现论文，激发创造

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

利用音频分类提高非洲裔美国人英语的语音识别

使用少量的长形式非洲裔美国英语（AAE）数据，通过将分类器输出与地理信息相结合，优化洲外识别器，从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%，而不降低 MAE 的质量。

Sep, 2023

面向口音语音识别的领域对抗训练

本文提出了一个领域对抗训练算法（DAT）来缓解口音识别问题。我们将领域对抗训练（DAT）目标与 Kaldi TDNN 网络的学习目标相结合，鼓励模型学习不受口音影响的特征，以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验，我们发现，与仅训练标准口音数据的基线相比，当我们没有口音转录时，DAT 可以使得字符错误率相对降低达 7.45％。我们还发现，DAT 与口音数据自动转录训练结合使用时具有优势，并且 DAT 比多任务学习在口音识别方面更为优异。

Jun, 2018

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

不同领域专家合作，培养全才

本文提出一种基于多领域音频模型的教师 - 学生训练框架，成功地构建了一个应用于多个领域的音频模型，通过对两种不同域名的语音风格实验验证效果，取得了比基线模型（多条件模型）更好的结果，相对字符错误率提高达到了 10.4%。

Jul, 2019

一种用于普通话语音识别中快速扩充口音领域的元学习方案

通过元学习技术，本研究提出了一种快速扩展普通话语音识别中口音领域的方法，有效地改善了普通话语音识别在口音方面的性能，比其他方法相对提高了约 3%。

Jul, 2023

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

无监督领域自适应语音识别与无监督错误校正

本文提出了一种无监督自适应错误校正方法，可以在未见过的领域中恢复由领域差异引起的语音识别错误，使用伪标记技术生成学习样本，在持续学习中以减少过度拟合，并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性，实验结果表明，该方法相对于未自适应的 ASR 系统显著降低了单词错误率，并可用于其他适应方法以带来额外的 10% 的性能提升。

Sep, 2022

利用机器翻译进行 ASR 纠错和领域适应

本文提出了一种简单的技术，通过机器翻译实现 ASR 误差校正的领域自适应，我们使用了 Google ASR 和 ASPIRE 模型进行了实验，结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%，其 BLEU 分数绝对值提高了 4 点；同时，通过流下游任务 Speaker Diarization，我们还评估了 ASR 误差校正，并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。

Mar, 2020