邻域正则化自训练在少标签学习中的应用
本研究提出了一种统一的理论分析方法,以解释使用深度神经网络进行自训练的半监督学习、无监督领域适应和无监督学习。结果表明,在使用输入一致性正则化的自训练和输入准确性正则化的人口目标的最小化器下,假定数据的一个低概率子集相对于该子集的大概率邻域具有扩张性,而不同类别的样本邻域具有最小的重叠,可以达到与基准真实标签高精度的结果。
Oct, 2020
我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
本文提出了一种基于自训练的半监督学习方法,通过加入 label 缺失的无标签数据和模型预测,模型的性能和精确度可以得到有效的提升,而 dropout 和注入噪声则是关键操作。
Sep, 2019
使用 self-ensemble 标签过滤方法对深度神经网络在噪声标签下的学习进行改进,通过逐渐过滤错误标签来提高任务性能,同时在无监督损失中利用这些数据进行半监督学习,并在不同的数据集和噪声比率下优于以前所有的噪声感知学习。
Oct, 2019
该研究介绍了一种利用特征空间中训练样例的相似性,鼓励每个样例预测与其最近邻居相似的学习方法,用于从带有噪声标签的数据中学习,并且在多个数据集上展现出良好的分类精度。
Feb, 2022
本文提出了一种基于贝叶斯深度学习的半监督学习方法,通过利用大规模未标记数据集,以文本分类为应用场景,仅使用 20-30 个样本能够训练出预训练语言模型的近似精度,相较于基线提高 12% 以上。
Jun, 2020
This paper proposes a method to improve the robustness of deep learning models in the presence of noisy labels by utilizing unsupervised learning and cluster regularization.
Jul, 2023
该论文提出了一种全新的训练深度神经网络的方法,在标签噪音的情况下拥有高稳健性,通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。
Oct, 2019
该论文提出了一种基于无标签干扰数据集训练深度卷积神经网络的新型框架,并使用一个无向图模型来描述干净和嘈杂标签之间的关系,在监督学习过程中学习这个模型。该模型在图像标注问题上应用,并在 CIFAR-10 和 MS COCO 数据集上展示出有效的标注效果和在训练中实现了减少标签噪声的效果。
May, 2017
本研究提出了一种新的信息伪标签框架(InfoGNN),以最大化互信息为基础,通过伪标签化最具信息代表性的节点来促进使用极少数标记的 GNN 的学习。同时,也提出了一个广义交叉熵损失函数,并使用类平衡正则化来解决潜在的标签噪音和类不平衡问题。实验证明,该方法在六个真实图数据集上显著优于基线和强自监督方法。
Jan, 2022