通过全监督学习从弱监督学习中学习
该研究提出了一种半监督学习方法,利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练,在大量弱注释未标注数据上优化目标网络,同时用置信网络的分数来加权目标网络的梯度更新,以避免噪声标签对目标网络模型的质量造成损害,并在评估中证明其相对基线的性能得到提高,同时从弱标签中提高了学习速度。
Nov, 2017
弱监督搜索有理论上能够在实验数据上进行训练并且能够学习到独特的信号特性的优点。然而,这种搜索的实际应用受到成功训练神经网络所需的大量信号的限制。本文旨在通过使用迁移学习和元学习来创建可以从较少实验信号中学习的神经网络。总体思想是首先在仿真数据上训练神经网络,以便学习可复用的概念或成为更高效的学习者。然后,神经网络将在实验数据上进行训练,并且由于之前的训练,需要较少的信号。我们发现,迁移学习和元学习可以显著提高弱监督搜索的性能。
Dec, 2023
文章提出了一种基于多任务弱监督的矩阵补全方法,通过建立弱监督任务之间的相关性解决弱监督准确性低的问题,从而提高模型训练的效果。实验结果表明,与传统的有监督方法相比,该方法能平均提高 20.2% 的准确率。
Oct, 2018
我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
该研究论文提出了 Meta Self-Refinement (MSR) 框架,用于有效地应对来自弱监督源的噪声标签,从而训练出噪声鲁棒性较强的深度神经网络模型。在八个自然语言处理基准测试中广泛实验,证明 MSR 在所有设置下都能够抵抗噪声,并且在准确率和 F1 分数上优于现有技术最多 11.4% 和 9.26%。
May, 2022
本文提出了一种基于半监督的 “保真度加权学习” 方法,通过利用高质量数据的后验概率调节参数的更新,使用弱标记数据对深度神经网络进行训练,同时提高任务相关数据表示的可靠性。在信息检索和自然语言处理领域中,我们的方法优于现有的半监督学习方法,表明该方法能更好地利用强弱标签数据,提高模型性能。
Nov, 2017
该论文提出了一种基于元学习的方法来重新加权具有噪声标签的训练数据,以选择更可靠的训练实例,并利用动态提取的可靠精英实例扩充手工标注的参考数据,从而在关系分类方面取得了领先的性能。
Oct, 2020
通过检查训练过程中的预测一致性,我们提出了一种自信度评估方法,用于半监督学习场景下在大部分训练标签不可用的情况下合理地估计模型对未标记样本的自信度。我们使用训练一致性作为替代函数,并提出了一种一致性排序损失函数用于自信度评估。在图像分类和分割任务中,我们的方法实现了自信度评估的最新性能。此外,我们通过一个下游主动学习任务展示了所提方法的好处。
Jul, 2023