改进非目标域数据上嘈杂学生训练以提高自动语音识别能力

Nov, 2022

改进非目标域数据上嘈杂学生训练以提高自动语音识别能力

Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition

Yu Chen, Wen Ding, Junjie Lai

TL;DR本篇研究提出了一种数据选择策略（称为 LM Filter），目的是提高 Noisy Student Training 在自动语音识别中对非目标领域数据的表现。使用带和不带语言模型的假设，其 CER 差异用作过滤阈值，结果显示相比较没有数据过滤的基准表现，能够获得 10.4% 的显著提高。在 AISHELL-1 测试集中我们能够达到 3.31% 的 CER，代表了我们目前的最佳结果，而在监督的 1000 小时 AISHELL-2 数据集上，则能够达到 4.73% 的 CER，具有竞争性的表现。

Abstract

noisy student training (NST) has recently demonstrated extremely strong performance in automatic speech recognition(ASR). In this paper, we propose a →

noisy student training automatic speech recognition data selection strategy language model cer

发现论文，激发创造

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

提高噪声学生训练用于自动语音识别

本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法，通过过滤、平衡和增强数据集，成功地提高了网络性能，使 WER 在 LibriSpeech 测试集上分别为 4.2％/8.6％（无噪声 / 有噪声），并在 LibriLight 上达到了 1.7％/3.4％（无噪声 / 有噪声）

May, 2020

多领域语音识别的数据选择性迁移学习

本论文提出一种通过有效选择训练语音数据来克服负迁移的新技术，该方法利用基于可能性比率的子模块函数为特定目标的相关言语数据进行选择。在广泛领域数据集上进行的实验表明，该技术可以找到相关数据并限制负迁移。使用这种数据选择技术，基于 PLP 特征的语音模型和基于 DNN 特征的语音模型的方法都可以得到 4％和 2％的相对改进。

Sep, 2015

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

从嘈杂音频转录中提取生物医学实体

自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Mar, 2024

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

先自主训练再转录

研究表明，对于训练和测试领域不匹配的情况下，当前的语音识别系统会显示出较大的性能下降。自我训练方法可以帮助解决这个问题，并在域漂移的情况下使模型适应。本文调查了在测试集上进行噪声学生教师训练作为测试时自适应方法的效益，类似于语言模型的动态评估方法，它可以在话语边界之间传递信息并作为一种域适应方法。实验中使用了一系列领域内和领域外数据集，展示了高达 32.2％的相对增益。有趣的是，我们的方法显示出比典型的自我训练设置使用单独的适应数据的更大增益。

Jun, 2024

使用噪声混音训练和两阶段推断的无监督语音增强的教师 - 学生框架

本文提出了一种不需要主观 / 客观语音质量度量作为参考的教师 - 学生训练策略来改进先前提出的嘈杂目标训练策略，并使用该模型作为初始模型，实验结果表明我们的方法优于几个基准方法，尤其是在两阶段推理中。

Oct, 2022

关于自动语音识别表示在现实世界噪音语音情感识别中的有效性

本文提出了一种高效的噪声语音情感识别（NSER）方法，通过采用自动语音识别（ASR）模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息，以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明，该方法在 NSER 性能上优于传统的噪声减少方法，胜过自监督学习方法，并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。

Nov, 2023

公开数据的语音增强是否有助于构建鲁棒的语音识别系统？

本研究旨在研究使用公开的噪声数据训练自动语音识别（ASR）系统的可行性，并发现使用语音增强技术进行数据清理后训练 ASR 系统比仅使用噪声数据和纯净数据训练 ASR 系统分别提高了 9.5％和 9％的单词错误率，其表现与噪声数据和纯净数据训练的理想情况相当。

Oct, 2019