众包中注释者组偏见探究

Oct, 2021

Toward Annotator Group Bias in Crowdsourcing

Haochen Liu, Joseph Thekinen, Sinem Mollaoglu, Da Tang, Ji Yang...

TL;DR这篇研究论文介绍了一种新的基于概率图形框架的群体偏差建模方法，以及用于捕捉同一人群内标注员偏倚影响标注结果的训练算法，该方法在实验证明了其在标签汇聚和模型学习方面的有效性。

Abstract

crowdsourcing has emerged as a popular approach for collecting annotated data to train supervised machine learning models. However, annotator bias can lead to defective annotations. Though there are a few works i

crowdsourcing annotator bias group effects probabilistic graphical framework label aggregation

发现论文，激发创造

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

不要责怪标注者：偏见已经开始于标注指导

本研究探讨了近年来 NLU 领域中提高模型性能所依赖的标准化测试数据集的 inherent 问题： crowdsourcing 具有的 instruction bias（人工标注者所遵循的指示信息），该倾向导致被标注的数据集存在过多类似的样本，从而高度统计偏向性，使得模型无法在实际应用场景中良好泛化，进而提出一系列解决方案。

May, 2022

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

贝叶斯非参数众包

本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型，以更好地处理众包数据标注中用户注释的质量问题，并利用 Gibbs 采样的高效推理算法对其进行实验验证。

Jul, 2014

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

无地面真实数据情况下对众包参与者的评估

该研究探讨了多个注释者可用的监督 / 半监督学习场景下识别对抗性或不可靠注释者的问题。

May, 2016

主观学习任务中众包标注者观点的捕捉

基于主观分类任务，我们提出了适用于文本的 Annotator Aware Representations (AART) 方法，旨在改善采集标注者观点性能，并学习标注者行为特征。

Nov, 2023

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023

注释填充以个性化预测：关于分布动态和模型预测的初步研究

为了克服通过众包进行数据注释所需的时间和成本，我们提出使用填充方法来还原所有标注者对所有示例的观点，从而创建一个不排除任何注释者观点的数据集。

May, 2023

ACTOR：利用注释者特定的分类器头部进行主动学习以应对人类标签变异

在主动学习设置中，多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上，我们展示了群体级别的熵在两个数据集上表现良好。重要的是，它在预测和不确定性估计方面的性能与全量训练相当，同时节约高达 70% 的标注预算。

Oct, 2023