多次注释数据集的性能分数可能会因数据集扩大,从单个注释变为多个注释而有所不同,我们的研究挑战了传统观念,表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。
Oct, 2023
研究一种新的多标签图像分类问题,针对训练数据需要手动标注出所有适用标签的挑战,探索使用缺失标签进行学习的特殊情况,并尝试通过线性分类器和端到端微调深度网络提出新的损失函数来解决这个问题。结果表明,在一些情况下,使用更少的标签进行训练可以接近全部标签训练的性能水平。
Jun, 2021
研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时,通过引入有多个参考的少量样例进行训练,相较于传统做法每个训练样本只采集一个参考,我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后,提供了对比这两种方法的丰富分析,用于改进标签分布估计。
Feb, 2021
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法,并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。
Oct, 2020
本研究通过采用单一模型在多语种数据上进行联合学习的策略,比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法,性能显著提高。同时,主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中,该方法表现出了显著优越性,在有限的预算下构建多语种模型的可行性得到了很大提高。
Apr, 2022
本文研究了在自然语言推理任务中训练模型时,直接使用标注者标签分布的方法而非正确标签的方法,并准备了 AmbiNLI 数据集,经过模型微调可以降低混沌度得分,并可提高模型性能和下游任务的表现。
本文提出了一种概率半监督模型和算法,可以从多个注释者的标记数据中学习,并利用未标记数据,将注释者模型用于估计真实标记和注释者变量专业知识。对各种情况进行了数值比较,并表明了该方法优于不使用未标记数据的多注释者方法及不使用多标记者信息的方法。
Mar, 2012
本文主要研究了数据注释和训练方法在客观单标签分类任务中的局限性,并提出了使用软标签的方法来改善性能。
Nov, 2023
噪声类标签训练影响神经网络的泛化性能,提出了一种基于多注释者分类框架 annot-mix 的 mixup 扩展方法,可以处理每个实例的多个类标签,并考虑类标签的注释者来源,优于现有的八种方法,并在使用人类或模拟注释者提供的十一个数据集上表现出色。
May, 2024