通过全监督学习从弱监督学习中学习

NIPSNov, 2017

通过全监督学习从弱监督学习中学习

Learning to Learn from Weak Supervision by Full Supervision

Mostafa Dehghani, Aliaksei Severyn, Sascha Rothe, Jaap Kamps

TL;DR本文介绍了一种在大数据情况下使用弱标签和少量真正标注数据训练神经网络的方法，通过训练目标网络和置信网络来控制目标网络的梯度更新，从而避免使用有噪音标记的数据更新网络权重会影响目标网络模型的品质。

Abstract

In this paper, we propose a method for training neural networks when we have a large set of data with weak labels and a small amount of data with true labels. In our proposed model, we train two →

neural networks weak labels true labels confidence network supervised data

发现论文，激发创造

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

利用迁移学习和元学习提高弱监督搜索的性能

弱监督搜索有理论上能够在实验数据上进行训练并且能够学习到独特的信号特性的优点。然而，这种搜索的实际应用受到成功训练神经网络所需的大量信号的限制。本文旨在通过使用迁移学习和元学习来创建可以从较少实验信号中学习的神经网络。总体思想是首先在仿真数据上训练神经网络，以便学习可复用的概念或成为更高效的学习者。然后，神经网络将在实验数据上进行训练，并且由于之前的训练，需要较少的信号。我们发现，迁移学习和元学习可以显著提高弱监督搜索的性能。

Dec, 2023

使用多任务弱监督训练复杂模型

文章提出了一种基于多任务弱监督的矩阵补全方法，通过建立弱监督任务之间的相关性解决弱监督准确性低的问题，从而提高模型训练的效果。实验结果表明，与传统的有监督方法相比，该方法能平均提高 20.2% 的准确率。

Oct, 2018

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023

弱监督下元自我完善的鲁棒性学习

该研究论文提出了 Meta Self-Refinement (MSR) 框架，用于有效地应对来自弱监督源的噪声标签，从而训练出噪声鲁棒性较强的深度神经网络模型。在八个自然语言处理基准测试中广泛实验，证明 MSR 在所有设置下都能够抵抗噪声，并且在准确率和 F1 分数上优于现有技术最多 11.4% 和 9.26%。

May, 2022

弱监督自训练

本文提出一种基于弱监督、自训练、规则注意力网络和半监督学习的框架（ASTRA），利用所有可用数据来进行深度学习任务的训练，证明其在文本分类上有显著优势。

Apr, 2021

端到端弱监督

通过聚合多个弱监督数据源，本研究提出一种直接使用神经网络重参数化概率先验标签，从而直接学习下游模型的端到端方法，取得了端模型性能和弱监督数据依赖性方面的改进。

Jul, 2021

权值与保真度加权学习

本文提出了一种基于半监督的 “保真度加权学习” 方法，通过利用高质量数据的后验概率调节参数的更新，使用弱标记数据对深度神经网络进行训练，同时提高任务相关数据表示的可靠性。在信息检索和自然语言处理领域中，我们的方法优于现有的半监督学习方法，表明该方法能更好地利用强弱标签数据，提高模型性能。

Nov, 2017

利用远程监督进行神经关系分类的元学习

该论文提出了一种基于元学习的方法来重新加权具有噪声标签的训练数据，以选择更可靠的训练实例，并利用动态提取的可靠精英实例扩充手工标注的参考数据，从而在关系分类方面取得了领先的性能。

Oct, 2020

使用未标注数据的置信度估计

通过检查训练过程中的预测一致性，我们提出了一种自信度评估方法，用于半监督学习场景下在大部分训练标签不可用的情况下合理地估计模型对未标记样本的自信度。我们使用训练一致性作为替代函数，并提出了一种一致性排序损失函数用于自信度评估。在图像分类和分割任务中，我们的方法实现了自信度评估的最新性能。此外，我们通过一个下游主动学习任务展示了所提方法的好处。

Jul, 2023