通过使用少量标注者的软标签实现模型性能和可靠性的提高,该方法在减少标注者数量的同时得到了与之前方法相当的模型性能,但需要在 elicitation 过程中付出显著的时间成本。
Jul, 2022
研究一种新的多标签图像分类问题,针对训练数据需要手动标注出所有适用标签的挑战,探索使用缺失标签进行学习的特殊情况,并尝试通过线性分类器和端到端微调深度网络提出新的损失函数来解决这个问题。结果表明,在一些情况下,使用更少的标签进行训练可以接近全部标签训练的性能水平。
Jun, 2021
该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法,提出可通过利用不同标注数量的训练样例,设计高效的学习算法,提高自然语言处理的任务表现。
Sep, 2021
本文研究了如何解决多个注释器提供的有噪声的标签的问题,提出了一种同时学习个体注释器模型和真实标签分布的方法,并通过正则化项促进收敛于真实注释器混淆矩阵的方法,在图像分类任务上实验结果表明,该方法能够估计注释器的技能并表现出良好的性能。
Feb, 2019
通过研究多注释者模型的功效,我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题,并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外,在我们的方法中,我们证明我们可以估计不确定性,这些不确定性更好地与注释不一致性相关联,而这种模型不确定性特别适用于知道何时不作出预测的部署场景。
Oct, 2021
提出了一种名为 CleverLabel 的新方法,该方法使用 validated proposal-guidEd 注释和 repaired labels 来实现高质量、低成本的标注,可在多个领域的真实图像分类基准测试中,将标注成本降低高达 30.0%,同时相对改进 Kullback-Leibler 散度高达 29.8%,为大规模数据集的高效标注提供了一种新的解决方案,并提高了标注质量。
May, 2023
本文提出一种使用 “超集学习” 框架来处理标签噪声的方法,将目标信息进行模糊化,并添加额外的备选标签,以协同改善学习器的泛化性能。实验结果表明该方法在合成和真实数据上都能有效检测和纠正错误的训练标签。
研究人员提高了对聚合标签的伤害的认识,特别是在自然存在人类标注员之间存在分歧的主观任务中。本文展示了仅仅提供聚合标签的模型在高度分歧的数据实例上表现出较低的置信度。我们认为过去的研究将这些实例视为标注错误,但我们认为高度分歧的文本实例难以学习的原因是传统的聚合模型在从主观任务中提取有用信号方面表现不佳。受最近一些研究表明从原始标注中学习的有效性的启发,我们研究了使用多个真实标准的分类方法。我们的实验显示在高度分歧实例上有置信度的提高。
Mar, 2024
利用未标记的样本空间,我们提出了两种新的注释统一算法,旨在解决主动学习中存在的错误数据标注问题,并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性,超过了现有算法和简单的多数投票。
Jul, 2023
本文探讨了通过众包方式进行 NLP 数据集标注时,标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差,并提高了数据集透明度和实用性的建议。