关于发布数据集中的标注者层次标签和信息

Oct, 2021

关于发布数据集中的标注者层次标签和信息

On Releasing Annotator-Level Labels and Information in Datasets

Vinodkumar Prabhakaran, Aida Mostafazadeh Davani, Mark Díaz

TL;DR本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Abstract

A common practice in building nlp datasets, especially using crowd-sourced annotations, involves obtaining multiple annotator judgements o

nlp datasets annotations label aggregation representational bias

发现论文，激发创造

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

ACTOR：利用注释者特定的分类器头部进行主动学习以应对人类标签变异

在主动学习设置中，多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上，我们展示了群体级别的熵在两个数据集上表现良好。重要的是，它在预测和不确定性估计方面的性能与全量训练相当，同时节约高达 70% 的标注预算。

Oct, 2023

基于群众标注的多视角知识蒸馏用于领域外泛化

本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布，从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能，同时还验证了这些方法在任务不确定性估计上表现最佳。

Dec, 2022

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023

谁的真实？考虑个体和集合身份的数据集标注

本文调查了众包数据集标注的伦理考虑，提出了 ML 数据管道各阶段的一系列推荐和考虑因素。

Dec, 2021

主观学习任务中众包标注者观点的捕捉

基于主观分类任务，我们提出了适用于文本的 Annotator Aware Representations (AART) 方法，旨在改善采集标注者观点性能，并学习标注者行为特征。

Nov, 2023

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

多标注者数据集的损失建模

通过多任务学习和基于损失的标签修正，我们提出了一种学习多样化意见更准确表达的方法，并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力，同时对主观数据应用的附加标签噪音也表现出鲁棒性。

Nov, 2023

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019