理解实例级标签噪声:不同影响和处理方法
本文介绍了基于结构因果模型的深度生成模型算法,解决了大规模数据集中存在的标签噪声问题。该算法有效利用了噪声标签的监督信息,并在合成和实际的噪声标签数据集上表现优异。
May, 2023
为解决对于干扰数据的过度拟合而影响泛化效果,我们提出了一种基于稀疏过参数化和隐式正则化的优化方案,通过对标签噪声进行建模和分离,实现了对于训练数据中的噪声数据清洗,最终获得了在多个真实数据集上较先进的测试结果,同时为优化过度参数化模型开辟了许多有趣的方向。
Feb, 2022
本研究提出了一种基于韦布尔混合模型的迭代选择方法来识别干净数据,从而减少网络记忆对虚假标签数据的影响,在模型训练中使用最终的干净子集。
Jun, 2023
本文提出了一种利用结构因果模型的生成方法来应对标签噪声的问题,证明了合理地建模示例有助于识别标签噪声转移矩阵,从而带来更好的分类器,该方法在合成和真实世界的标签噪声数据集上均优于所有最先进的方法。
Sep, 2021
本研究分析了不同类型的标签噪声对深度学习的影响,提出了一种基于特征相关性的标签噪声生成方法,并提供了常用基准数据集的标签噪声以便其他研究人员测试其算法。
Mar, 2020
该研究提出一种二阶方法来处理深度神经网络训练中的标签噪音问题,使用此方法可以解决由任务难度引起的实例相关的噪音,提供一个新的损失函数来处理实例相关噪音,进而能够使用已有的类相关噪音的解决方案来处理该问题。
Dec, 2020
训练神经网络分类器在带有标签噪声的数据集上存在过拟合的风险,为了解决这个问题,研究人员探索了更加稳健的替代损失函数,然而,许多这些替代方法都是启发式的,仍然容易受到过拟合或欠拟合的影响。在本研究中,我们提出了一种更直接的方法来应对标签噪声引起的过拟合问题,我们观察到标签噪声的存在意味着噪声泛化风险的下界,基于这一观察,我们提出在训练过程中对经验风险施加一个下界来减轻过拟合问题。我们的主要贡献是提供了理论结果,给出了不同损失函数下噪声风险的最小可达下界的明确、易于计算的界限。我们通过实验证明,在各种设置中使用这些界限极大地提高了鲁棒性,几乎没有额外的计算成本。
Jul, 2023
本文研究了在电商商品大数据中存在的噪声标签及其对产品分类模型的影响,提出了一种基于实例依赖噪声的训练解决方案,在多个数据集及噪声方法上进行了实验,结果表明当噪声率不能忽略且数据分布高度倾斜时,分类任务的局限性。
Sep, 2022