DivideMix: 以半监督的方式学习有噪声标签
本文提出了一种基于自监督训练的方法,通过利用所有训练数据的信息,为每个样本提取有意义且可泛化的嵌入空间,从而去除 out-of-distribution 样本,并使用迭代的 Manifold DivideMix 算法找到干净和有噪音的样本,以半监督的方式训练模型。此外,我们还提出了一种名为 MixEMatch 的半监督算法,其中包括在模型的输入和最终隐藏表示中进行 mixup 增强,通过在输入和流形空间进行插值提取更好的表示。对多个合成噪声图像基准和真实世界的网络爬取数据集进行的广泛实验证明了我们提出的框架的有效性。代码可在此 https URL 找到。
Aug, 2023
本研究提出了一种应对嘈杂标签的无监督半监督深度神经网络学习框架,通过在噪声图像标注中识别出标签准确度较高的部分数据,并利用半监督学习方式训练深度神经网络以更好地利用整个数据集。
Feb, 2018
该论文研究如何提高深度学习算法在标签噪声存在的情况下的鲁棒性,提出了一种名为 CrossSplit 的新型训练方法,该方法可以通过两个神经网络在数据集的两个不相交部分上训练来缓解噪声标签的记忆化现象,并使用对等网络的预测来调整每个网络的训练标签。实验证明,该方法在 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 mini-WebVision 数据集上可以比当前最先进的方法提高 90% 的噪声率。
Dec, 2022
通过 QMix 噪声学习框架,在混合噪声下学习出一种鲁棒的疾病诊断模型,能有效处理医学图像数据集中的噪声,提高对混合噪声的稳健性和泛化能力。
Apr, 2024
利用标记信息指导非标记示例的学习,通过三个操作进行语义分割的半监督学习,包括相似标记 - 非标记图像对的插值,互信息的转移以及伪面具的泛化。在 PASCAL VOC 2012 和城市景观上的大规模实验中,与先前的方法相比,GuidedMix-Net 取得了竞争性分割准确性,并显着提高了平均交集联合(mIoU)比先前的方法高 7%。
Dec, 2021
本文提出了一个名为 Tripartite 的解决方案,用于从大规模数据集中更精确地分离出硬标签、噪声标签和清洁标签,并采用低权重学习和自监督学习两种方式来最小化噪声标签的危害并最大化其数据价值,实验证明 Tripartite 能更精确地过滤噪声标签数据,并在五个基准数据集上优于大多数现有方法,尤其是在现实世界中的数据集上。
Feb, 2022
本文提出了一种新颖的嘈杂标记学习框架 ProMix,通过高置信度匹配选择技术,最大限度地提高干净样本的效用,实验结果表明,该方法在 CIFAR-10N 和 CIFAR-100N 数据集上都能够取得比最佳基线方法更好的表现。
Jul, 2022
本研究提出了一种半监督学习算法 MixMatch,采用猜测低熵标签的方法,通过使用 MixUp 混合标记和未标记的数据来处理扩充后的未标注样例。实验结果表明,MixMatch 在许多数据集和标记数据量上都取得了大幅度的优越结果,同时也证明了 MixMatch 如何帮助实现更好的准确性和隐私权的权衡。最终,我们进行了消融研究来分离 MixMatch 的哪些组件对其成功最为重要。
May, 2019
本文提出了一种基于混合数据的指导式半监督分割方法 GuidedMix-Net,并利用标记数据指导未标记数据的学习,该方法采用特征对齐和互信息传输的方法进行特征融合,同时提出伪标签生成模块用于生成高质量伪标签,联合训练标记数据和伪标签,实验验证了该方法在各种数据集中取得了具有竞争力的分割精度和显着改进的 mIoU。
Jun, 2021
通过使用混合模型从局部损失分布学习样本权重,我们提出了一种利用合成样本训练模型的框架来减轻噪音标签影响,并通过逐渐修正噪音标签估计软目标,得到了更为准确的近似真实标签和更加独立和清晰界定的聚类,实验证明我们的方法在两个基准数据集 (CIFAR-10 和 CIFAR-100) 及两个大规模真实世界数据集 (Clothing1M 和 Webvision) 上优于现有技术方法且具备可靠的学习表达能力。
Jun, 2024