非对称标签噪声下的分类:一致性和最大降噪
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
本论文研究了机器学习中存在的标签噪音问题,提出了一个理论框架来模拟标签噪音分布对分类性能的影响,并发现标签噪音的分布对分类精度有很大的影响,尤其是当噪音集中在特定的特征空间时。此外,论文还探讨了一些解决噪音问题的方法,并发现存在一些困难。
Jun, 2022
本文通过理论分析探讨了在样本噪声存在的情况下,仅使用噪声样本能否学习到可靠模型的问题。作者认为,没有额外假设条件的情况下,经验风险最小化可以达到最优风险上限。此外,文章还讨论了 0-1 损失的极小极大下限问题,认为纯使用噪声样本无法学习。
Jun, 2023
在监督学习中,评估标签质量成为一个尚未解决的研究问题。本文提出了一种替代路径,使用非参数逻辑回归模型构建基于污染标签噪声的假设检验,相比传统的参数方法具有更强的适应性和较少的模型设定问题。
Dec, 2023
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
May, 2024
本文研究了一个分类问题,其中样本标签被随机损坏。我们解决了如何在有标签噪声的情况下最好地利用传统分类问题的丰富代理损失函数,通过重要性重新加权来使用任何代理损失函数进行带有噪声标签的分类,以及如何获得噪声率的问题。
Nov, 2014
本文研究了多类分类中标签噪声的问题,证明准确度度量本身可以是健壮的,并探讨了噪声数据下的训练和验证问题,同时针对模型选择问题提出了一种新的框架 NTS,并提供了相应的代码。
Dec, 2020
研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器,发现简单地强制使用人口统计差异措施达到平等,会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。
Oct, 2020
该论文提出了一种理论测试,证明现实世界的数据集中的噪声不太可能是类条件噪声,而是实例依赖噪声。研究者们还提出了一种可控的实例依赖噪声生成算法和一种小型算法 SEAL 来应对这种噪声,并在各种噪声分数下表现出色,同时提高了在真实世界噪音基准 Clothing1M 上的泛化能力。
Dec, 2020
本文提出了一种两阶段的清洗样本识别方法来解决深度模型在无噪声标签时的过拟合问题,其中包括类别不平衡和实例依赖的噪声模式等挑战。该方法既能够在预测中利用类别信息识别近类预测中的干净样本,又能够通过两个分类器头的一致性来识别接近真实类别边界处的干净样本。实验结果表明,该方法在各种基准测试上优于现有的 state-of-the-art 方法。
Jul, 2022