基于实例和标签相关的标签噪声的二分类
该研究提出一种二阶方法来处理深度神经网络训练中的标签噪音问题,使用此方法可以解决由任务难度引起的实例相关的噪音,提供一个新的损失函数来处理实例相关噪音,进而能够使用已有的类相关噪音的解决方案来处理该问题。
Dec, 2020
对于数据集存在的任意的基于实例和标签的噪声,本文提出算法来使得能够对数据集进行最优化的分类和排名,同时给出三个关键结果,即对于基于实例的噪声和广泛的基于实例和标签的噪声类,可以在噪声分布上保持一致性,而 Isotron 可以有效地从污染的样本中学习。
May, 2016
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
训练神经网络分类器在带有标签噪声的数据集上存在过拟合的风险,为了解决这个问题,研究人员探索了更加稳健的替代损失函数,然而,许多这些替代方法都是启发式的,仍然容易受到过拟合或欠拟合的影响。在本研究中,我们提出了一种更直接的方法来应对标签噪声引起的过拟合问题,我们观察到标签噪声的存在意味着噪声泛化风险的下界,基于这一观察,我们提出在训练过程中对经验风险施加一个下界来减轻过拟合问题。我们的主要贡献是提供了理论结果,给出了不同损失函数下噪声风险的最小可达下界的明确、易于计算的界限。我们通过实验证明,在各种设置中使用这些界限极大地提高了鲁棒性,几乎没有额外的计算成本。
Jul, 2023
本论文研究了机器学习中存在的标签噪音问题,提出了一个理论框架来模拟标签噪音分布对分类性能的影响,并发现标签噪音的分布对分类精度有很大的影响,尤其是当噪音集中在特定的特征空间时。此外,论文还探讨了一些解决噪音问题的方法,并发现存在一些困难。
Jun, 2022
本文提出了一个基于特征依赖的标签噪声处理算法,该算法采用渐进式标签校正策略,通过理论证明其可以适应广泛的噪声模式并收敛于贝叶斯分类器,实验证明其优于 SOTA 基线算法且对各种噪声类型和程度具有鲁棒性。
Mar, 2021
本文介绍了基于结构因果模型的深度生成模型算法,解决了大规模数据集中存在的标签噪声问题。该算法有效利用了噪声标签的监督信息,并在合成和实际的噪声标签数据集上表现优异。
May, 2023
本文研究了在训练数据中存在标签噪声的情况下,风险最小化的鲁棒性。我们探讨了一种损失函数对于噪声的容忍度,并证明了 0-1 损失、Sigmoid 损失、Ramp 损失和 Probit 损失满足该条件,其中选择足够大的参数可以使其对非均匀标签噪声具有容忍度。在大量实证研究中,与 SVM 算法相比,我们证明了使用 0-1 损失、Sigmoid 损失和 Ramp 损失的风险最小化更加鲁棒。
Mar, 2014
提出一种能够有效提高 SOTA noisy-label learning 方法性能的新噪声标签学习图模型,该模型能够准确估计噪声率并用于训练过程的样本选择阶段。
May, 2023