数据无罪，模型有责：理解主观标注中的噪声与偏差

Mar, 2024

数据无罪，模型有责：理解主观标注中的噪声与偏差

Don't Blame the Data, Blame the Model: Understanding Noise and Bias When Learning from Subjective Annotations

Abhishek Anand, Negar Mokhberian, Prathyusha Naresh Kumar, Anweasha Saha, Zihao He...

TL;DR研究人员提高了对聚合标签的伤害的认识，特别是在自然存在人类标注员之间存在分歧的主观任务中。本文展示了仅仅提供聚合标签的模型在高度分歧的数据实例上表现出较低的置信度。我们认为过去的研究将这些实例视为标注错误，但我们认为高度分歧的文本实例难以学习的原因是传统的聚合模型在从主观任务中提取有用信号方面表现不佳。受最近一些研究表明从原始标注中学习的有效性的启发，我们研究了使用多个真实标准的分类方法。我们的实验显示在高度分歧实例上有置信度的提高。

Abstract

Researchers have raised awareness about the harms of aggregating labels especially in subjective tasks that naturally contain disagreements

aggregating labels disagreements subjective tasks multiple ground truth confidence improvement

发现论文，激发创造

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

追求基础事实：在注释器噪声存在的情况下学习自信模型并估计不确定性

本文提出了一种与多个标注者的混淆有关的置信模型学习方法，通过对分类器网络添加熵或基于信息的正则化器来鲁棒地估计给定仅含有噪声标签的预测，并在 MNIST、CIFAR-10 和 FMNIST 等数据集上进行了实验，实验结果表明该方法在各项指标上均优于或与其他现有方法表现相当。

Jan, 2023

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

多标注者数据集的损失建模

通过多任务学习和基于损失的标签修正，我们提出了一种学习多样化意见更准确表达的方法，并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力，同时对主观数据应用的附加标签噪音也表现出鲁棒性。

Nov, 2023

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

主观学习任务中众包标注者观点的捕捉

基于主观分类任务，我们提出了适用于文本的 Annotator Aware Representations (AART) 方法，旨在改善采集标注者观点性能，并学习标注者行为特征。

Nov, 2023

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

基于感知质量的模型训练在注释者标签不确定性下的应用

本文研究了数据标注中的注释者标签不确定性对模型的泛化能力和预测不确定性的影响，并提出了一种基于感知质量的模型训练框架，通过生成多个标签来增强模型的可靠性。实验证明，使用该框架进行训练可以减轻注释者标签不确定性对模型泛化能力和预测不确定性的降低。

Mar, 2024

ACTOR：利用注释者特定的分类器头部进行主动学习以应对人类标签变异

在主动学习设置中，多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上，我们展示了群体级别的熵在两个数据集上表现良好。重要的是，它在预测和不确定性估计方面的性能与全量训练相当，同时节约高达 70% 的标注预算。

Oct, 2023

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023