提高噪声学生训练用于自动语音识别

May, 2020

提高噪声学生训练用于自动语音识别

Improved Noisy Student Training for Automatic Speech Recognition

Daniel S. Park, Yu Zhang, Ye Jia, Wei Han, Chung-Cheng Chiu...

TL;DR本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法，通过过滤、平衡和增强数据集，成功地提高了网络性能，使 WER 在 LibriSpeech 测试集上分别为 4.2％/8.6％（无噪声 / 有噪声），并在 LibriLight 上达到了 1.7％/3.4％（无噪声 / 有噪声）

Abstract

Recently, a semi-supervised learning method known as "noisy student training" has been shown to improve image classification performance of deep networks significantly. →

semi-supervised learning noisy student training specaugment automatic speech recognition librispeech

发现论文，激发创造

使用带有噪声的自我训练方法提高 ImageNet 分类准确率

通过使用更大的学生模型和在学习过程中添加噪声，该文提出了一种名为 'Noisy student training' 的半监督学习方法，在大规模高质量图像分类任务 ImageNet 上取得了 88.4% 的准确率，并在鲁棒性测试集上表现优异。

Nov, 2019

半监督学习在自动语音识别中的极限挑战

该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率，最终实现了 1.4%/2.6% 的识别误差，相比当前最先进水平 1.7%/ 3.3%，表现出显著的提升。

Oct, 2020

改进非目标域数据上嘈杂学生训练以提高自动语音识别能力

本篇研究提出了一种数据选择策略（称为 LM Filter），目的是提高 Noisy Student Training 在自动语音识别中对非目标领域数据的表现。使用带和不带语言模型的假设，其 CER 差异用作过滤阈值，结果显示相比较没有数据过滤的基准表现，能够获得 10.4% 的显著提高。在 AISHELL-1 测试集中我们能够达到 3.31% 的 CER，代表了我们目前的最佳结果，而在监督的 1000 小时 AISHELL-2 数据集上，则能够达到 4.73% 的 CER，具有竞争性的表现。

Nov, 2022

噪声自训练与数据扩增在冒犯与仇恨言论检测任务中的应用

在线社交媒体存在大量冒犯和仇恨言论，为了解决这个问题，需要自动检测这些言论，而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果，在两个冒犯和仇恨言论数据集上进行实验证明了自我训练方法能一致提升性能，但噪声引入的文本数据增强技术会降低性能。

Jul, 2023

使用噪声混音训练和两阶段推断的无监督语音增强的教师 - 学生框架

本文提出了一种不需要主观 / 客观语音质量度量作为参考的教师 - 学生训练策略来改进先前提出的嘈杂目标训练策略，并使用该模型作为初始模型，实验结果表明我们的方法优于几个基准方法，尤其是在两阶段推理中。

Oct, 2022

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021

无监督数据增强的一致性训练

通过使用先进的数据增强方法 RandAugment 和后向翻译来取代简单噪声操作，在大量无标签数据上进行一致性训练，从而在六种语言和三个视觉任务中带来了显著的改进，并在 CIFAR-10 数据集上超过了所有先前的方法，实现了错误率为 5.43，只使用了 250 个示例。

Apr, 2019

通过数据增强、课程学习和多任务增强提高 DistilHuBERT 对未知噪声环境的鲁棒性

本研究提出了一种改进的 DistilHuBERT 模型，该模型引入了噪声和混响以及多任务学习的训练方法，能够有效提高在真实环境下的边缘语音应用中的鲁棒性。

Nov, 2022

在低资源环境下训练神经网络自动注释的嘈杂数据

通过添加噪声层到神经网络结构中，我们可以处理噪声并联合清洁和嘈杂数据进行训练，从而提高低资源 NER 任务的性能，最多可提高 35%。

Jul, 2018

一种用于提高自动语音识别中噪声稳健性的课程学习方法

这篇论文提出了一种相对简单的课程式的训练策略，称为 Accordion Annealing（ACCAN），它利用一个多阶段的训练计划来增加语音识别系统的噪声韧性，同时应用 Per-epoch Noise Mixing（PEM）方法来动态改变训练数据的信噪比，该方法在 20dB 至 - 10dB SNR 范围内的平均词错误率取得了 31.4％的下降。

Jun, 2016