通过双流样本蒸馏实现鲁棒性噪声标签学习
提出适用于学习有噪声标签的统一蒸馏框架,利用包括一个小的干净数据集和知识图谱中的标签关系来 “对冲” 学习风险,并提出了一套新的基准数据集,用于评估学习有噪声标签的任务。实证研究证明了我们提出的方法在所有领域中的有效性。
Mar, 2017
通过对样本进行简单而有效的选择算法,我们将训练样本划分为一个干净集和一个带噪声集,使用高斯混合模型来建模相似样本对的相似度分布,从而能够更可靠地判断各个样本的标签置信度,并在各种基准数据集上展示了超越现有方法的显著改进。
Apr, 2024
自蒸馏是使用教师模型的输出来训练学生模型的过程,本研究在多类别分类中从理论上探讨了自蒸馏,研究了多轮自蒸馏和使用精炼教师输出的自蒸馏,其灵感源于部分标签学习(PLL)。我们通过为学生模型的输出推导出一个封闭形式解,发现自蒸馏在具有高特征相关性的实例中起到标签平均化的作用。这种平均化有助于模型关注与给定实例相关的特征聚类以预测标签,但在蒸馏轮次增多时会导致性能衰减。此外,我们证明了自蒸馏在标签噪声情景中的有效性,并确定了达到 100% 分类准确率所需的标签污染条件和最小蒸馏轮次。我们的研究还揭示了在高噪声率条件下,一步精炼教师输出的蒸馏超过了使用教师直接输出的多步自蒸馏的效果。
Feb, 2024
该论文提出了一种全新的训练深度神经网络的方法,在标签噪音的情况下拥有高稳健性,通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。
Oct, 2019
提出了一种名为 DivideMix 的新型深度学习框架,通过利用半监督学习技术来将训练数据动态分成一个包含清晰样本的标记集合和一个包含噪声样本的未标记集合,并在半监督的方式下同时对标记与未标记数据进行训练,使用 MixMatch 策略在标记和未标记样本上分别执行标记共修整和标记共猜测以进行标签协同改进。在多个基准数据集上的实验显示出 DivideMix 比现有最先进的方法具有显着的改进。
Feb, 2020
利用 CLIP 模型的协作样本选择及预训练,并通过对 prompt 的微调以及协同训练 DNN 分类器,解决在学习有噪声标签的过程中由于样本选择错误累积导致的 DNN 训练偏见和泛化性能问题。
Oct, 2023
该论文提出了一种基于无标签干扰数据集训练深度卷积神经网络的新型框架,并使用一个无向图模型来描述干净和嘈杂标签之间的关系,在监督学习过程中学习这个模型。该模型在图像标注问题上应用,并在 CIFAR-10 和 MS COCO 数据集上展示出有效的标注效果和在训练中实现了减少标签噪声的效果。
May, 2017
在连续学习的领域中,数据流中存在的噪声标签是模型可靠性和公平性的显著障碍。我们提出了一种名为噪声测试去偏置(NTD)的新颖直观的采样方法,以减轻演变数据流中的噪声标签,并建立公平且稳健的连续学习算法。与之前的方法相比,NTD 在维持或超过准确性水平的同时,训练速度提高了两倍以上,并且与之前的方法相比,NTD 使用的 GPU 内存资源少于五分之一。
Apr, 2024
提出一种能够有效提高 SOTA noisy-label learning 方法性能的新噪声标签学习图模型,该模型能够准确估计噪声率并用于训练过程的样本选择阶段。
May, 2023
本研究提出了一种应对嘈杂标签的无监督半监督深度神经网络学习框架,通过在噪声图像标注中识别出标签准确度较高的部分数据,并利用半监督学习方式训练深度神经网络以更好地利用整个数据集。
Feb, 2018