多标注者数据集的损失建模

Nov, 2023

Loss Modeling for Multi-Annotator Datasets

Uthman Jinadu, Jesse Annan, Shanshan Wen, Yi Ding

TL;DR通过多任务学习和基于损失的标签修正，我们提出了一种学习多样化意见更准确表达的方法，并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力，同时对主观数据应用的附加标签噪音也表现出鲁棒性。

Abstract

Accounting for the opinions of all annotators of a dataset is critical for fairness. However, when annotating large datasets, individual <

annotators fairness opinions multitask learning label noise

发现论文，激发创造

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

ACTOR：利用注释者特定的分类器头部进行主动学习以应对人类标签变异

在主动学习设置中，多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上，我们展示了群体级别的熵在两个数据集上表现良好。重要的是，它在预测和不确定性估计方面的性能与全量训练相当，同时节约高达 70% 的标注预算。

Oct, 2023

数据无罪，模型有责：理解主观标注中的噪声与偏差

研究人员提高了对聚合标签的伤害的认识，特别是在自然存在人类标注员之间存在分歧的主观任务中。本文展示了仅仅提供聚合标签的模型在高度分歧的数据实例上表现出较低的置信度。我们认为过去的研究将这些实例视为标注错误，但我们认为高度分歧的文本实例难以学习的原因是传统的聚合模型在从主观任务中提取有用信号方面表现不佳。受最近一些研究表明从原始标注中学习的有效性的启发，我们研究了使用多个真实标准的分类方法。我们的实验显示在高度分歧实例上有置信度的提高。

Mar, 2024

通过正则化评估注释者混淆来从嘈杂的标签中学习

本文研究了如何解决多个注释器提供的有噪声的标签的问题，提出了一种同时学习个体注释器模型和真实标签分布的方法，并通过正则化项促进收敛于真实注释器混淆矩阵的方法，在图像分类任务上实验结果表明，该方法能够估计注释器的技能并表现出良好的性能。

Feb, 2019

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

Learn2Agree：无客观标准的多注解器拟合

提出一种名为 Learn2Agree 的学习框架，用于协调多个标注者之间的不确定性，以更好地进行医疗预测和诊断。

Sep, 2021

SeedBERT: 从聚合标签中恢复注释器评分分布

使用 SeedBERT 方法从单个标签中恢复注释者评分分布来解决机器学习中的主观性问题，并且在下游主观任务中与其他模型相比表现出显着的性能提升。

Nov, 2022