分析逼真嘈杂标签数据的噪声模型误差
该论文研究了NLP中文本分类的标签噪声问题,提出了一种基于beta混合模型的辅助噪声模型,通过此模型可以减轻标签噪声对分类器的影响,提高分类准确率并防止过度拟合。
Jan, 2021
本论文介绍了两个基准数据集CIFAR-10N和CIFAR-100N,使用这些数据集可以更好地理解真实世界嘈杂标签和合理地处理它们,量化和定性显示真实世界嘈杂标签表现出依赖于实例模式,与传统的基于类假设和合成标签的模式不同。并且,还通过与人工噪声和类依赖的合成噪声的对比研究,研究了记忆正确和错误预测的情况,从而表明真实世界的噪声模式比合成噪声模式更具挑战性,需要重新考虑带噪标签的学习问题。
Oct, 2021
对于使用现代NLP模型(如BERT)进行文本分类任务时,在各种噪声类型下,现有的噪声处理方法并不总能提高性能,并且有可能会降低性能,这表明需要进一步研究标签噪声。
Apr, 2022
本研究构建了最大的NLP基准NoisywikiHow,用于学习真实世界中存在噪声标签的情况。该基准数据集通过模拟人类误差构建多个标签噪声来源,并提供多种噪声水平,以支持对含噪数据进行控制实验,并为对学习噪声标签方法(LNL)进行全面系统地评估提供了可能。
May, 2023
本文研究了标签噪声对BERT在监督分类任务中的影响,发现现实标签噪声可以严重降低BERT的分类性能,探讨了如何使用集成方法和噪声清洗方法来提高模型的稳健性。
May, 2023
通过样本选择,基于Proto-semi的噪声标签学习方法在真实世界的注释情景中分别处理了事实噪声和歧义噪声,并利用了原型向量和半监督学习方法来增强训练,实验证明其在处理噪声标签学习问题上的健壮性。
Jul, 2023
噪声标签学习的研究中,噪声建模和噪声检测是两种常见方法,但这两种方法通常独立研究,缺乏对它们的协作研究。本文探讨了这两种方法的整合,提出了一个互联结构,包括噪声建模、源知识识别和使用噪声源知识整合方法的增强噪声检测的关键模块。在包括三种类型的噪声和各个模块的不同组合的四个数据集上的实验证明了这些模块的协作有效性。我们的协作结构方法在合成噪声数据集中提高了高达10%的top-1分类准确率,在真实世界的噪声数据集中提高了3-5%的准确率。结果还表明,这些模块在不同噪声场景中对整体性能有不同的贡献。这些发现为将来设计针对特定噪声场景定制的噪声标签学习方法提供了有价值的见解。我们的代码对公众开放可访问。
Nov, 2023
通过与合成噪声相比较,我们构建了一个现实世界中实例依赖的噪声数据集,并通过预训练语言模型和噪声处理技术的实验,发现了在文本分类中真实噪声模式带来的挑战。我们希望NoisyAG-News能促进对于学习噪声标签的未来解决方案的开发和评估。
Jul, 2024
本研究针对噪声标签对训练过程的不良影响,提出了一种新的减缓方法,即“一步式抗噪声”(OSA),通过高维正交性的特性有效区分干净样本和噪声样本。OSA在单一步推理中评估输入对的噪声水平,展示了在多种基准、模型和任务中,显著增强的训练鲁棒性和降低的计算成本。
Oct, 2024