NoiseBench: 命名实体识别中真实标签噪声对性能的基准测试
本研究深入探讨了一种广泛采用的命名实体识别基准数据集CoNLL03 NER,并成功地发现和纠正了5.38%测试句子中的标签错误。研究人员还提出了一个名为CrossWeigh的简单但有效的框架来处理NER模型训练过程中的标签错误,实验证明其显著提高了各种NER模型在三个数据集上的性能。
Sep, 2019
在资源匮乏的情况下,使用自动注释或远程监督数据可以改善监督标注模型的性能,但这些数据往往信息有噪声,并且噪声估计需要考虑输入特征和预初始化的混淆矩阵。我们提出将训练数据使用输入特征进行聚类,为每个簇计算不同的混淆矩阵,并在多种语言的命名实体识别场景中进行评估,显示我们的方法比其他混淆矩阵方法提高了高达9%的性能。
Oct, 2019
该研究采用校准置信度估计的方式来研究深度学习在实际场景下的命名实体识别问题,提出了一种基于本地和全局独立性假设的置信得分估计策略,并结合CRF模型来隔离低置信度标签,同时提出了一种基于实体标签结构的置信度校准方法,最后将其集成到自我训练框架中进行性能提升,在四种语言和遥远标注场景下的实验证明了该方法的有效性。
Apr, 2021
本文提出一种名为“自我协同去噪学习”的鲁棒学习模式,利用两个教师-学生网络相互学习进行标签去噪,以应对远程监督命名实体识别中的标签噪声问题。该方法在五个真实世界数据集上的实验结果表明其优于当前DS-NER去噪方法。
Oct, 2021
本篇论文提出了一个新的名词实体识别模型 SANTA,其使用 Memory-smoothed Focal Loss 和 Entity-aware KNN 分别处理精度不准确和不完整噪音引起的实体模糊问题,使用 Boundary Mixup 和一种噪音容错的 loss 来缓解决策边界问题和提高模型的稳健性,实验结果表明 SANTA 可以有效缓解两种噪声类型,并在五个公共数据集上达到了新的最优表现。
May, 2023
本研究构建了最大的NLP基准NoisywikiHow,用于学习真实世界中存在噪声标签的情况。该基准数据集通过模拟人类误差构建多个标签噪声来源,并提供多种噪声水平,以支持对含噪数据进行控制实验,并为对学习噪声标签方法(LNL)进行全面系统地评估提供了可能。
May, 2023
通过综合重新标定工作和自动一致性检查,修正了英文CoNLL-03中所有标签的7.0%。我们的资源通过实验证实了最先进的方法在我们的数据上达到了显著更高的F1得分(97.1%),并且通过注释噪声的误差分析发现高资源粗粒度NER的理论上限尚未达到。
Oct, 2023
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪NER数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
该研究论文探讨了在遥感监督(DS-NER)框架下的命名实体识别(NER),其中主要挑战在于由于伪阳性、伪阴性和正类型错误等固有错误导致标签质量受损。我们批判性评估了当前DS-NER方法的效力,使用了一个名为QTL的真实基准数据集,揭示其性能常常达不到预期。为了解决标签噪声的普遍问题,我们引入了一种简单而有效的方法,基于课程的正负无标记学习(CuPUL),该方法在训练过程中通过从“简单”且更干净的样本开始,增强模型对噪声样本的鲁棒性。我们的实证结果突出了CuPUL减少噪声标签影响、超越现有方法的能力。
Feb, 2024
通过与合成噪声相比较,我们构建了一个现实世界中实例依赖的噪声数据集,并通过预训练语言模型和噪声处理技术的实验,发现了在文本分类中真实噪声模式带来的挑战。我们希望NoisyAG-News能促进对于学习噪声标签的未来解决方案的开发和评估。
Jul, 2024