DivideMix: 以半监督的方式学习有噪声标签

Feb, 2020

DivideMix: 以半监督的方式学习有噪声标签

DivideMix: Learning with Noisy Labels as Semi-supervised Learning

Junnan Li, Richard Socher, Steven C.H. Hoi

TL;DR提出了一种名为 DivideMix 的新型深度学习框架，通过利用半监督学习技术来将训练数据动态分成一个包含清晰样本的标记集合和一个包含噪声样本的未标记集合，并在半监督的方式下同时对标记与未标记数据进行训练，使用 MixMatch 策略在标记和未标记样本上分别执行标记共修整和标记共猜测以进行标签协同改进。在多个基准数据集上的实验显示出 DivideMix 比现有最先进的方法具有显着的改进。

Abstract

deep neural networks are known to be annotation-hungry. Numerous efforts have been devoted to reducing the annotation cost when learning with deep networks. Two prominent directions include learning with noisy labels

deep neural networks noisy labels semi-supervised learning dividemix mixmatch

发现论文，激发创造

多变体划分混合：一种用于严重标签噪声的半监督对比学习框架

本文提出了一种基于自监督训练的方法，通过利用所有训练数据的信息，为每个样本提取有意义且可泛化的嵌入空间，从而去除 out-of-distribution 样本，并使用迭代的 Manifold DivideMix 算法找到干净和有噪音的样本，以半监督的方式训练模型。此外，我们还提出了一种名为 MixEMatch 的半监督算法，其中包括在模型的输入和最终隐藏表示中进行 mixup 增强，通过在输入和流形空间进行插值提取更好的表示。对多个合成噪声图像基准和真实世界的网络爬取数据集进行的广泛实验证明了我们提出的框架的有效性。代码可在此 https URL 找到。

Aug, 2023

基于半监督两阶段方法的噪声标签学习

本研究提出了一种应对嘈杂标签的无监督半监督深度神经网络学习框架，通过在噪声图像标注中识别出标签准确度较高的部分数据，并利用半监督学习方式训练深度神经网络以更好地利用整个数据集。

Feb, 2018

CrossSplit: 通过数据分割减轻标签噪声记忆化现象

该论文研究如何提高深度学习算法在标签噪声存在的情况下的鲁棒性，提出了一种名为 CrossSplit 的新型训练方法，该方法可以通过两个神经网络在数据集的两个不相交部分上训练来缓解噪声标签的记忆化现象，并使用对等网络的预测来调整每个网络的训练标签。实验证明，该方法在 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 mini-WebVision 数据集上可以比当前最先进的方法提高 90% 的噪声率。

Dec, 2022

QMix: 质量感知混合噪声的鲁棒性视网膜疾病诊断学习

通过 QMix 噪声学习框架，在混合噪声下学习出一种鲁棒的疾病诊断模型，能有效处理医学图像数据集中的噪声，提高对混合噪声的稳健性和泛化能力。

Apr, 2024

GuidedMix-Net：使用标记图像作为参考的半监督语义分割

利用标记信息指导非标记示例的学习，通过三个操作进行语义分割的半监督学习，包括相似标记 - 非标记图像对的插值，互信息的转移以及伪面具的泛化。在 PASCAL VOC 2012 和城市景观上的大规模实验中，与先前的方法相比，GuidedMix-Net 取得了竞争性分割准确性，并显着提高了平均交集联合（mIoU）比先前的方法高 7％。

Dec, 2021

Tripartite: 使用更精细的划分解决嘈杂标签问题

本文提出了一个名为 Tripartite 的解决方案，用于从大规模数据集中更精确地分离出硬标签、噪声标签和清洁标签，并采用低权重学习和自监督学习两种方式来最小化噪声标签的危害并最大化其数据价值，实验证明 Tripartite 能更精确地过滤噪声标签数据，并在五个基准数据集上优于大多数现有方法，尤其是在现实世界中的数据集上。

Feb, 2022

ProMix：最大化干净样本效用来对抗标签噪声

本文提出了一种新颖的嘈杂标记学习框架 ProMix，通过高置信度匹配选择技术，最大限度地提高干净样本的效用，实验结果表明，该方法在 CIFAR-10N 和 CIFAR-100N 数据集上都能够取得比最佳基线方法更好的表现。

Jul, 2022

MixMatch: 半监督学习的整体方法

本研究提出了一种半监督学习算法 MixMatch，采用猜测低熵标签的方法，通过使用 MixUp 混合标记和未标记的数据来处理扩充后的未标注样例。实验结果表明，MixMatch 在许多数据集和标记数据量上都取得了大幅度的优越结果，同时也证明了 MixMatch 如何帮助实现更好的准确性和隐私权的权衡。最终，我们进行了消融研究来分离 MixMatch 的哪些组件对其成功最为重要。

May, 2019

GuidedMix-Net：使用标记的图像作为参考学习改进伪掩码

本文提出了一种基于混合数据的指导式半监督分割方法 GuidedMix-Net，并利用标记数据指导未标记数据的学习，该方法采用特征对齐和互信息传输的方法进行特征融合，同时提出伪标签生成模块用于生成高质量伪标签，联合训练标记数据和伪标签，实验验证了该方法在各种数据集中取得了具有竞争力的分割精度和显着改进的 mIoU。

Jun, 2021

使用软标签的合成样本减轻噪声监督

通过使用混合模型从局部损失分布学习样本权重，我们提出了一种利用合成样本训练模型的框架来减轻噪音标签影响，并通过逐渐修正噪音标签估计软目标，得到了更为准确的近似真实标签和更加独立和清晰界定的聚类，实验证明我们的方法在两个基准数据集 (CIFAR-10 和 CIFAR-100) 及两个大规模真实世界数据集 (Clothing1M 和 Webvision) 上优于现有技术方法且具备可靠的学习表达能力。

Jun, 2024