分类中异方差标签噪声的 Logistic-Normal 似然函数
在监督学习中,评估标签质量成为一个尚未解决的研究问题。本文提出了一种替代路径,使用非参数逻辑回归模型构建基于污染标签噪声的假设检验,相比传统的参数方法具有更强的适应性和较少的模型设定问题。
Dec, 2023
该论文对深度学习中估计异方差高斯分布参数的常见方法进行了研究,并提出了一种称为 β-NLL 的替代方法,该方法可以减轻基于梯度的优化器与对数似然函数损失函数一起使用时产生的困难。该替代方法在不同领域和任务中都表现出可观的改进和更具鲁棒性,这在预测 RMSE 和对数似然度量标准方面得到验证。
Mar, 2022
该论文研究了 NLP 中文本分类的标签噪声问题,提出了一种基于 beta 混合模型的辅助噪声模型,通过此模型可以减轻标签噪声对分类器的影响,提高分类准确率并防止过度拟合。
Jan, 2021
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
训练神经网络分类器在带有标签噪声的数据集上存在过拟合的风险,为了解决这个问题,研究人员探索了更加稳健的替代损失函数,然而,许多这些替代方法都是启发式的,仍然容易受到过拟合或欠拟合的影响。在本研究中,我们提出了一种更直接的方法来应对标签噪声引起的过拟合问题,我们观察到标签噪声的存在意味着噪声泛化风险的下界,基于这一观察,我们提出在训练过程中对经验风险施加一个下界来减轻过拟合问题。我们的主要贡献是提供了理论结果,给出了不同损失函数下噪声风险的最小可达下界的明确、易于计算的界限。我们通过实验证明,在各种设置中使用这些界限极大地提高了鲁棒性,几乎没有额外的计算成本。
Jul, 2023
提出一种基于概率模型的方法来对大规模图像分类数据集中的标签噪声进行建模并进行准确性优化,该方法通过在神经网络分类器的最终隐藏层上放置多变量正态分布的潜在变量来建立噪声的协方差矩阵,并且在多个基准测试数据集上表现出显著提高的准确性。
May, 2021
我们提出了一种新的方法用于稳健的不确定性量化,将分类问题视为在干扰参数下的假设检验问题,通过估计分类器在整个干扰参数空间上的接收器操作特性(ROC),我们能够设计在广义标签偏移下不变的截断点,从而有效赋予预训练分类器领域适应能力,并返回有效的预测集合同时保持高度的分类性能。
Feb, 2024
本论文研究了机器学习中存在的标签噪音问题,提出了一个理论框架来模拟标签噪音分布对分类性能的影响,并发现标签噪音的分布对分类精度有很大的影响,尤其是当噪音集中在特定的特征空间时。此外,论文还探讨了一些解决噪音问题的方法,并发现存在一些困难。
Jun, 2022
本文介绍了两种简单的技术对抗现实场景中数据标签分布的不平衡性,包括采用标签频率进行 logistic 校准 以及在训练过程中强制实施其中之一或两种技术能够鼓励罕见标签与支配标签之间拥有一个相对较大的罕见标签较大的标签在一些学习情况中具有更好的表现。
Jul, 2020
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
May, 2024