基于实例和标签相关的标签噪声的二分类
本文研究了在训练数据中存在标签噪声的情况下,风险最小化的鲁棒性。我们探讨了一种损失函数对于噪声的容忍度,并证明了 0-1 损失、Sigmoid 损失、Ramp 损失和 Probit 损失满足该条件,其中选择足够大的参数可以使其对非均匀标签噪声具有容忍度。在大量实证研究中,与 SVM 算法相比,我们证明了使用 0-1 损失、Sigmoid 损失和 Ramp 损失的风险最小化更加鲁棒。
Mar, 2014
对于数据集存在的任意的基于实例和标签的噪声,本文提出算法来使得能够对数据集进行最优化的分类和排名,同时给出三个关键结果,即对于基于实例的噪声和广泛的基于实例和标签的噪声类,可以在噪声分布上保持一致性,而Isotron可以有效地从污染的样本中学习。
May, 2016
提出了一种学习算法,该算法能够识别和纠正具有上限的实例和标签依赖性标签噪声(BILN),并证明了在某些条件下,学习基于精简实例的分类器将收敛于贝叶斯最优分类器,该算法在合成和真实数据集上进行了实证评估,并证明了其对BILN的鲁棒性和有效性。
Sep, 2017
本文提出 CORES^2(COnfidence REgularized Sample Sieve)滤除具有实例依赖标签噪声的数据集中的错误标签样本,实现不需要确定噪声比率,可显著提高DNN模型的性能和训练效率。
Oct, 2020
该论文提出了一种理论测试,证明现实世界的数据集中的噪声不太可能是类条件噪声,而是实例依赖噪声。研究者们还提出了一种可控的实例依赖噪声生成算法和一种小型算法SEAL来应对这种噪声,并在各种噪声分数下表现出色,同时提高了在真实世界噪音基准Clothing1M上的泛化能力。
Dec, 2020
本文提出了一个基于特征依赖的标签噪声处理算法,该算法采用渐进式标签校正策略,通过理论证明其可以适应广泛的噪声模式并收敛于贝叶斯分类器,实验证明其优于SOTA基线算法且对各种噪声类型和程度具有鲁棒性。
Mar, 2021
提出一种能够有效提高 SOTA noisy-label learning 方法性能的新噪声标签学习图模型,该模型能够准确估计噪声率并用于训练过程的样本选择阶段。
May, 2023
训练神经网络分类器在带有标签噪声的数据集上存在过拟合的风险,为了解决这个问题,研究人员探索了更加稳健的替代损失函数,然而,许多这些替代方法都是启发式的,仍然容易受到过拟合或欠拟合的影响。在本研究中,我们提出了一种更直接的方法来应对标签噪声引起的过拟合问题,我们观察到标签噪声的存在意味着噪声泛化风险的下界,基于这一观察,我们提出在训练过程中对经验风险施加一个下界来减轻过拟合问题。我们的主要贡献是提供了理论结果,给出了不同损失函数下噪声风险的最小可达下界的明确、易于计算的界限。我们通过实验证明,在各种设置中使用这些界限极大地提高了鲁棒性,几乎没有额外的计算成本。
Jul, 2023
本研究解决了多类别、实例相关标签噪声下的学习问题,提出了一种新的理论框架,将标签噪声下的学习视为一种领域适应。引入的相对信号强度概念为从噪声到干净后验的可转移性提供了量化指标,并支持了噪声无知经验风险最小化原则。通过将该原则应用于自监督特征提取器的线性分类器,我们在CIFAR-N数据挑战中获得了最先进的表现。
Oct, 2024