无监督数据增强的一致性训练
该论文提出了一种全新的训练深度神经网络的方法,在标签噪音的情况下拥有高稳健性,通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。
Oct, 2019
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021
本文介绍了一种基于原始数据集更清洁的假设,利用有机教师模型提供的软增强标签进行学习的数据增强即时去噪方法,并应用简单的自正则化模块来防止在噪声标签上过拟合,该方法可应用于各种数据扩充技术,可以在文本分类和问答任务中提高性能。
Dec, 2022
本文重新审视了无监督数据增强 (UDA) 技术,并在多个序列任务上展示了其效果。该算法的一些组件对于 NLP 任务的表现是必要的,而且 UDA 并不需要复杂的数据扩充,只需要对原有数据进行随机取代并在两次预测中执行一致性损失可以得到相当好的效果。
Oct, 2020
通过理论和实验,我们证明了半监督学习可以显著提高对抗性鲁棒性,实验结果表明在 CIFAR-10 上使用 500k 未标记图像,使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上,使用模型自身的额外的训练集可以提高 4 至 10 个百分点,与使用额外标签的提高量相差不大。
May, 2019
本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法,通过过滤、平衡和增强数据集,成功地提高了网络性能,使 WER 在 LibriSpeech 测试集上分别为 4.2%/8.6%(无噪声 / 有噪声),并在 LibriLight 上达到了 1.7%/3.4%(无噪声 / 有噪声)
May, 2020
本文研究了应对 “学习有噪音标签” 问题的多种数据增广策略,通过在 CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上的实验,发现在 warm-up 阶段和学习阶段使用不同的增广策略能够最有效地提高 DNNs 的鲁棒性,同时也提出了一种关于样本筛选的增广方法,该方法在对真实噪音数据集进行处理时比其他基线方法取得了更好的结果。
Mar, 2021
本文提出了一种半监督的方法,将少量的标记数据应用在源领域训练中,使用噪声容忍的伪标记过程进行半监督学习,并添加循环一致性约束来进一步利用未标记图像信息实现少量样本之间的图像转换。最终实验得到了优秀的结果,相较全监督方法减少了标记数据的要求。
Mar, 2020