邻域正则化自训练在少标签学习中的应用

AAAIJan, 2023

邻域正则化自训练在少标签学习中的应用

Neighborhood-Regularized Self-Training for Learning with Few Labels

Ran Xu, Yue Yu, Hejie Cui, Xuan Kan, Yanqiao Zhu...

TL;DR本文提出了一种利用相似标签样本选择的自训练深度神经网络的方法，可有效降低错误伪标签产生的噪声影响，并均衡自训练过程性能提高和时间效率优化的关系。

Abstract

Training deep neural networks (DNNs) with limited supervision has been a popular research topic as it can significantly alleviate the annotation burden. self-training has been successfully applied in

deep neural networks self-training semi-supervised learning label noise sample selection

发现论文，激发创造

自监督深度网络无标签数据自训练的理论分析

本研究提出了一种统一的理论分析方法，以解释使用深度神经网络进行自训练的半监督学习、无监督领域适应和无监督学习。结果表明，在使用输入一致性正则化的自训练和输入准确性正则化的人口目标的最小化器下，假定数据的一个低概率子集相对于该子集的大概率邻域具有扩张性，而不同类别的样本邻域具有最小的重叠，可以达到与基准真实标签高精度的结果。

Oct, 2020

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023

神经序列生成的自训练再探

本文提出了一种基于自训练的半监督学习方法，通过加入 label 缺失的无标签数据和模型预测，模型的性能和精确度可以得到有效的提升，而 dropout 和注入噪声则是关键操作。

Sep, 2019

SELF: 用自组学习在过滤含噪标签方面的应用

使用 self-ensemble 标签过滤方法对深度神经网络在噪声标签下的学习进行改进，通过逐渐过滤错误标签来提高任务性能，同时在无监督损失中利用这些数据进行半监督学习，并在不同的数据集和噪声比率下优于以前所有的噪声感知学习。

Oct, 2019

利用邻域一致性进行含噪标签学习

该研究介绍了一种利用特征空间中训练样例的相似性，鼓励每个样例预测与其最近邻居相似的学习方法，用于从带有噪声标签的数据中学习，并且在多个数据集上展现出良好的分类精度。

Feb, 2022

面向少标签文本分类的不确定性自训练

本文提出了一种基于贝叶斯深度学习的半监督学习方法，通过利用大规模未标记数据集，以文本分类为应用场景，仅使用 20-30 个样本能够训练出预训练语言模型的近似精度，相较于基线提高 12% 以上。

Jun, 2020

对抗噪声标签的稳健特征学习

This paper proposes a method to improve the robustness of deep learning models in the presence of noisy labels by utilizing unsupervised learning and cluster regularization.

Jul, 2023

从严重标签噪声中提炼有效的监督

该论文提出了一种全新的训练深度神经网络的方法，在标签噪音的情况下拥有高稳健性，通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。

Oct, 2019

训练深度判别神经网络对抗标签噪声的鲁棒性

该论文提出了一种基于无标签干扰数据集训练深度卷积神经网络的新型框架，并使用一个无向图模型来描述干净和嘈杂标签之间的关系，在监督学习过程中学习这个模型。该模型在图像标注问题上应用，并在 CIFAR-10 和 MS COCO 数据集上展示出有效的标注效果和在训练中实现了减少标签噪声的效果。

May, 2017

少量标签图神经网络的信息伪标记

本研究提出了一种新的信息伪标签框架（InfoGNN），以最大化互信息为基础，通过伪标签化最具信息代表性的节点来促进使用极少数标记的 GNN 的学习。同时，也提出了一个广义交叉熵损失函数，并使用类平衡正则化来解决潜在的标签噪音和类不平衡问题。实验证明，该方法在六个真实图数据集上显著优于基线和强自监督方法。

Jan, 2022