揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

EMNLPOct, 2023

揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

Unveiling the Multi-Annotation Process: Examining the Influence of Annotation Quantity and Instance Difficulty on Model Performance

PDF

Pritam Kadasi, Mayank Singh

TL;DR多次注释数据集的性能分数可能会因数据集扩大，从单个注释变为多个注释而有所不同，我们的研究挑战了传统观念，表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。

Abstract

The NLP community has long advocated for the construction of multi-annotator datasets to better capture the nuances of language interpretation, subjectivity, and ambiguity. This paper conducts a retrospective study to show how →

multi-annotator datasets performance scores annotation budgets language interpretation models trained

发现论文，激发创造

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

语料库考虑注释模型的建立与扩展

旨在全面涵盖多样性的标注任务中，仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点，因此需要探索各种标注者建模技术的有效性，并比较它们在七个语料库中的性能。通过研究发现，常用的用户标记模型始终胜过更复杂的模型，并引入了一种复合嵌入方法，展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系，为语料构建和多视角自然语言处理的未来工作提供了启示。

Apr, 2024

多语种模型有效获取注释

本研究通过采用单一模型在多语种数据上进行联合学习的策略，比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法，性能显著提高。同时，主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中，该方法表现出了显著优越性，在有限的预算下构建多语种模型的可行性得到了很大提高。

Apr, 2022

多标注者数据集的损失建模

通过多任务学习和基于损失的标签修正，我们提出了一种学习多样化意见更准确表达的方法，并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力，同时对主观数据应用的附加标签噪音也表现出鲁棒性。

Nov, 2023

通过多位专家注释员提高医学图像分析中的物体检测：一项实证研究

本研究探讨了在医学影像分析中利用机器学习算法进行异常检测的方法，重点讨论了算法的性能如何取决于标注者的数量和标签的质量。我们提出了一种简单有效的方法，通过聚合不同水平标注者的标注来解决单个标注者主观性标注的问题。通过估计多个标注的隐藏标签并使用重新加权的损失函数来提高检测性能，我们旨在提高异常检测任务中预测模型的效率。本研究在一个真实的医学影像数据集上进行了评估，并超越了不考虑标注者间差异的相关基线。

Mar, 2023

计算立场检测的多标签和多目标机器注释采样

研究了利用大型语言模型进行自动标注来进行计算立场检测，引入了多标签和多目标采样策略以优化标注质量，实验证明该方法能明显提高性能和学习效果。

Nov, 2023

简单、复杂和多对象标注任务的聚合注解通用模型

人工标注复杂度及聚合模型对于标签质量及半监督学习的影响。

Dec, 2023