通过重要性加权对带噪声标签的数据进行分类
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
May, 2024
该论文提出了一种全新的训练深度神经网络的方法,在标签噪音的情况下拥有高稳健性,通过利用小的可信集合来估计样本权重和伪标签以重复使用它们进行监督训练。该方法在各种类型的标签噪声和大规模真实世界标签噪声数据集上取得了最新的最优表现。
Oct, 2019
该研究探讨了标签噪声分类器的稳健性,旨在提高模型对复杂实际场景中的噪声数据的抵抗能力,并通过整合对抗机器学习和重要性重新加权技术来解决标签噪声对实际应用的影响。
Dec, 2023
研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器,发现简单地强制使用人口统计差异措施达到平等,会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。
Oct, 2020
训练神经网络分类器在带有标签噪声的数据集上存在过拟合的风险,为了解决这个问题,研究人员探索了更加稳健的替代损失函数,然而,许多这些替代方法都是启发式的,仍然容易受到过拟合或欠拟合的影响。在本研究中,我们提出了一种更直接的方法来应对标签噪声引起的过拟合问题,我们观察到标签噪声的存在意味着噪声泛化风险的下界,基于这一观察,我们提出在训练过程中对经验风险施加一个下界来减轻过拟合问题。我们的主要贡献是提供了理论结果,给出了不同损失函数下噪声风险的最小可达下界的明确、易于计算的界限。我们通过实验证明,在各种设置中使用这些界限极大地提高了鲁棒性,几乎没有额外的计算成本。
Jul, 2023
本文介绍了针对大规模标注数据不可避免存在 label noise 问题时,通过使用 noisy classifiers 算法来提高模型鲁棒性,进而讲解了该算法的理论解释,并提出了一种基于该算法的标签校正方法,结合深度神经网络,成功提升了测试性能。
Nov, 2020
该研究针对训练样本标签随机出错的分类问题,提出一种新的判别方法:通过对杂质标签的最大去噪实现真实类别条件分布的识别,其基础概念是相互不可约的真实类别条件分布,另外,相关实验表明,该方法在标杆数据和核粒子分类问题上具有有效性。
Mar, 2013
通过理论分析,在给定随机受损标签的线性可分情境中,重新训练可以提高模型的整体准确率,并且通过基于共识的重新训练方法在没有额外的隐私成本的情况下显著提高标签差分隐私训练的准确率。
Jun, 2024
本文通过理论分析探讨了在样本噪声存在的情况下,仅使用噪声样本能否学习到可靠模型的问题。作者认为,没有额外假设条件的情况下,经验风险最小化可以达到最优风险上限。此外,文章还讨论了 0-1 损失的极小极大下限问题,认为纯使用噪声样本无法学习。
Jun, 2023
This paper proposes a method to improve the robustness of deep learning models in the presence of noisy labels by utilizing unsupervised learning and cluster regularization.
Jul, 2023