本文主要研究了数据注释和训练方法在客观单标签分类任务中的局限性,并提出了使用软标签的方法来改善性能。
Nov, 2023
提出了一种利用可学习标签和动态正则化来解决固定标签产生的过拟合、泛化性能下降等问题的框架方法,并应用于数据集噪声过大的情况中取得了显著的改进。
Sep, 2020
本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布,从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能,同时还验证了这些方法在任务不确定性估计上表现最佳。
Dec, 2022
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
本文研究了如何解决多个注释器提供的有噪声的标签的问题,提出了一种同时学习个体注释器模型和真实标签分布的方法,并通过正则化项促进收敛于真实注释器混淆矩阵的方法,在图像分类任务上实验结果表明,该方法能够估计注释器的技能并表现出良好的性能。
Feb, 2019
本文探讨了通过众包方式进行 NLP 数据集标注时,标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差,并提高了数据集透明度和实用性的建议。
Oct, 2021
本研究探讨不同训练策略如何利用少量人工注释标签和大量但带有偏见的合成标签(针对身份群体)来预测在线评论的毒性,并评估了这些方法的准确性和公正性。虽然最初使用所有数据进行训练并在干净数据上微调能够产生具有最高 AUC 的模型,但同时我们发现没有一种策略在所有公正度量标准上表现最佳。
该研究提出了一种数据高效的方法,称为 “可信协同学习”(TCL),在多个嘈杂标注器的情况下从多个受信任的数据中学习深度分类器。这种方法通过联合学习数据分类器和标签聚合器来有效地使用受信任的数据生成可信软标签(称为共标签)。
Mar, 2022
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019