变质样本学习排名

SIGIRJun, 2018

Learning to Rank from Samples of Variable Quality

Mostafa Dehghani, Jaap Kamps

TL;DR本文提出了一种半监督的学生 - 教师模型 ——“fidelity-weighted learning”，通过模拟教师网络来根据标注品质的置信度调整每个样本在学生网络的参数更新中所占比重，从而在使用弱标注数据进行深度神经网络训练时取得比主流半监督学习方法更好的性能。此方法在文本排序任务上表现优异。

Abstract

training deep neural networks requires many training samples, but in practice, →

deep neural networks training semi-supervised learning weakly-labeled data document ranking

发现论文，激发创造

权值与保真度加权学习

本文提出了一种基于半监督的 “保真度加权学习” 方法，通过利用高质量数据的后验概率调节参数的更新，使用弱标记数据对深度神经网络进行训练，同时提高任务相关数据表示的可靠性。在信息检索和自然语言处理领域中，我们的方法优于现有的半监督学习方法，表明该方法能更好地利用强弱标签数据，提高模型性能。

Nov, 2017

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

一种基准生成式概率模型用于弱监督学习

本研究提出了基于生成模型的自动标注方法，通过弱监督学习去减轻手动标注的负担，取得了比现有方法更好的性能表现，提高了机器学习项目的生产效率。

Mar, 2023

数量与质量：探究样本量与标签可靠性之间的权衡

研究在概率领域学习中标签质量的优化问题，提出了在有限训练预算下，是否应优先使用重采样策略提高训练数据的标签质量还是扩大数据集；并证明在人工标注的过程中这一策略可以取得更好的分类器性能，在此基础上提出了两种不同的验证方案。

Apr, 2022

通过全监督学习从弱监督学习中学习

本文介绍了一种在大数据情况下使用弱标签和少量真正标注数据训练神经网络的方法，通过训练目标网络和置信网络来控制目标网络的梯度更新，从而避免使用有噪音标记的数据更新网络权重会影响目标网络模型的品质。

Nov, 2017

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

从严重标签噪声中提炼有效的监督

该论文提出了一种全新的训练深度神经网络的方法，在标签噪音的情况下拥有高稳健性，通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。

Oct, 2019

SoftMatch: 半监督学习中解决数量 - 质量平衡问题

本文介绍了基于样本加权统一公式的伪标签方法及其 inherent quantity-quality trade-off 问题，并提出了利用截断高斯函数对置信度加权以实现软的置信度阈值。加强了弱学习类别的利用，在图像分类、文本分类和非平衡分类等多种基准测试中都取得了显著的改进。

Jan, 2023

结合半监督和正未标记学习提升全参考图像质量评估

本文提出了一种利用半监督和正无标记学习方法来提高无标签数据质量检测表现的方法，通过动态生成伪 MOS，结合全参考图像质量评估和空间注意力机制来处理 GAN 模型带来的误配问题。在多项数据集实验中表现良好。

Apr, 2022

用于嘈杂图像分类的学习顾问网络

本文提出了基于顾问网络的新概念，旨在解决图像分类中存在噪声标签的问题。通过元学习方法训练顾问网络，不仅可以提高分类器的性能，还可以利用含有噪声标签的数据。该方法在 CIFAR10、CIFAR100 和 Clothing1M 数据集上的实验结果显示出了最先进的效果。

Nov, 2022