无监督数据增强的一致性训练

Apr, 2019

Unsupervised Data Augmentation for Consistency Training

Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le

TL;DR通过使用先进的数据增强方法 RandAugment 和后向翻译来取代简单噪声操作，在大量无标签数据上进行一致性训练，从而在六种语言和三个视觉任务中带来了显著的改进，并在 CIFAR-10 数据集上超过了所有先前的方法，实现了错误率为 5.43，只使用了 250 个示例。

Abstract

semi-supervised learning lately has shown much promise in improving deep learning models when labeled data is scarce. Common among recent approaches is the use of consistency training on a large amount of

semi-supervised learning consistency training data augmentation unlabeled data improved performance

发现论文，激发创造

从严重标签噪声中提炼有效的监督

该论文提出了一种全新的训练深度神经网络的方法，在标签噪音的情况下拥有高稳健性，通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。

Oct, 2019

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021

自然语言理解中的即时数据增强去噪

本文介绍了一种基于原始数据集更清洁的假设，利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法，并应用简单的自正则化模块来防止在噪声标签上过拟合，该方法可应用于各种数据扩充技术，可以在文本分类和问答任务中提高性能。

Dec, 2022

无监督数据增强：天真增强法与无标签数据

本文重新审视了无监督数据增强 (UDA) 技术，并在多个序列任务上展示了其效果。该算法的一些组件对于 NLP 任务的表现是必要的，而且 UDA 并不需要复杂的数据扩充，只需要对原有数据进行随机取代并在两次预测中执行一致性损失可以得到相当好的效果。

Oct, 2020

无标签数据提高对抗鲁棒性

通过理论和实验，我们证明了半监督学习可以显著提高对抗性鲁棒性，实验结果表明在 CIFAR-10 上使用 500k 未标记图像，使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上，使用模型自身的额外的训练集可以提高 4 至 10 个百分点，与使用额外标签的提高量相差不大。

May, 2019

提高噪声学生训练用于自动语音识别

本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法，通过过滤、平衡和增强数据集，成功地提高了网络性能，使 WER 在 LibriSpeech 测试集上分别为 4.2％/8.6％（无噪声 / 有噪声），并在 LibriLight 上达到了 1.7％/3.4％（无噪声 / 有噪声）

May, 2020

学习噪声标签的增强策略

本文研究了应对 “学习有噪音标签” 问题的多种数据增广策略，通过在 CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上的实验，发现在 warm-up 阶段和学习阶段使用不同的增广策略能够最有效地提高 DNNs 的鲁棒性，同时也提出了一种关于样本筛选的增广方法，该方法在对真实噪音数据集进行处理时比其他基线方法取得了更好的结果。

Mar, 2021

适用于少样本图像翻译的半监督学习

本文提出了一种半监督的方法，将少量的标记数据应用在源领域训练中，使用噪声容忍的伪标记过程进行半监督学习，并添加循环一致性约束来进一步利用未标记图像信息实现少量样本之间的图像转换。最终实验得到了优秀的结果，相较全监督方法减少了标记数据的要求。

Mar, 2020

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

基于增强的一致性正则化分类

本文提出了一种基于数据增强的一致性正则化框架 CR-Aug，利用停止梯度操作来提高支持向量器的泛化能力，并表明 CR-Aug 的效果显著优于基线方法。

May, 2022