语料库考虑注释模型的建立与扩展

ACLApr, 2024

语料库考虑注释模型的建立与扩展

Corpus Considerations for Annotator Modeling and Scaling

Olufunke O. Sarumi, Béla Neuendorf, Joan Plepi, Lucie Flek, Jörg Schlötterer...

TL;DR旨在全面涵盖多样性的标注任务中，仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点，因此需要探索各种标注者建模技术的有效性，并比较它们在七个语料库中的性能。通过研究发现，常用的用户标记模型始终胜过更复杂的模型，并引入了一种复合嵌入方法，展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系，为语料构建和多视角自然语言处理的未来工作提供了启示。

Abstract

Recent trends in natural language processing research and annotation tasks affirm a paradigm shift from the traditional reliance on a single ground truth to a focus on →

natural language processing annotation tasks individual perspectives annotator modeling corpus construction

发现论文，激发创造

通过标注人表示实现更好的模型：你是你所注释的内容

通过创建标注者表征（标注者嵌入）和他们的标注（标注嵌入），并为每个表征分配可学习矩阵，我们的方法显著提高了各种自然语言处理基准测试的模型性能。通过捕捉个体标注者的独特倾向和主观性，我们的表征有助于民主化 AI，并确保 AI 模型包容多元化观点。

May, 2023

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

数据视角统一和个性化：社会规范应用

本文针对社交媒体上的冲突话题，研究了如何利用个性化方法对 13k 个标注者进行标注，比较了该方法在预测社交规范感知方面的有效性，并对不同关系下的社会情境的性能进行了分析。

Oct, 2022

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

主观学习任务中众包标注者观点的捕捉

基于主观分类任务，我们提出了适用于文本的 Annotator Aware Representations (AART) 方法，旨在改善采集标注者观点性能，并学习标注者行为特征。

Nov, 2023

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023

建模人类标签变异的建筑甜点：以论证质量为例，最好相关视角！

通过对两个论证质量分类任务（论证具体性和结论的有效性 / 新颖性）的研究，我们发现推荐系统架构相对于多数标签模型能使得个体标注者的 F1 得分提高高达 43％，这表明在处理主观性时，与个体观点相关的方法是可行的。

Nov, 2023