在复杂结构化，多对象和自由文本注释任务中通常测量标注者的一致性

Dec, 2022

在复杂结构化，多对象和自由文本注释任务中通常测量标注者的一致性

Measuring Annotator Agreement Generally across Complex Structured, Multi-object, and Free-text Annotation Tasks

Alexander Braylan, Omar Alonso, Matthew Lease

TL;DR本研究探讨了复杂注释任务的 IAA 测量设计与评估，评估跨越了图像边界框、文本序列标记、排名列表、自由文本翻译、数值向量和语法树等 7 个多样化任务，并提出了两种新颖的 IAA 测量方法，显示它们在任务和注释距离函数之间产生了更一致的 IAA 测量。

Abstract

When annotators label data, a key metric for quality assurance is inter-annotator agreement (IAA): the extent to which annotators agree on their labels. Though many iaa measures exist for simple categorical and o

inter-annotator agreement labeling tasks krippendorff's alpha complex annotation tasks iaa measures

发现论文，激发创造

野外场景中的标注者一致性：揭示其在真实场景中的新兴作用和考虑因素

本文讨论了 Inter-Annotator Agreement 作为一种标签一致性的计量方式，在实际应用中的角色和含义，同时也提出了多种考虑和潜在问题，并建议有效的应对策略。

Jun, 2023

超越传统边界：利用标注者间一致性来提升数据管理操作

本研究提出一种新的方法，利用传统用于评估标记一致性的 IAA（Inter-Annotator Agreement），用于优化数据管理操作（DMOps）；我们主张使用 IAA 预测个体注释者的标记质量，从而在数据生产中实现成本和时间效益。此外，我们的研究强调了 IAA 在预测文档难度方面的潜力，从而提高了数据构建过程的整体效率。本研究强调了 IAA 在数据驱动的研究优化中的广泛应用潜力，并对优先考虑效率、成本减少和高质量数据的大规模数据项目具有重要意义。

Jun, 2023

使用 Krippendorff Alpha 评估注释数据的质量，用于计算机视觉应用

本文旨在研究深度学习模型中标注数据的影响因素，以及如何通过监测数据标注质量来提高算法精度和准确性。通过多个数据标注实验，作者发现标注过程、训练数据和评估数据等因素是确保 AI 系统可信度的基本要素。

Dec, 2019

保持一致性关键：使用标注者内一致性消除自然语言处理中的标签变化

该研究提出使用 intra-annotator agreement 衡量标签稳定性，通过 exploratory annotation experiments 探索其与主观性和歧义性之间的关系，为自然语言处理任务提供重要的质量控制。

Jan, 2023

简单、复杂和多对象标注任务的聚合注解通用模型

人工标注复杂度及聚合模型对于标签质量及半监督学习的影响。

Dec, 2023

分类任务的一致性评估: kappa 统计量

探讨了当前计算语言学和认知科学领域中可靠性测量存在的问题以及应该采用来自内容分析的技术作为解决方案。

Feb, 1996

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

注释者一致性、基准真相估计和算法评估的实证研究

本文研究了计算机视觉中的标注者一致性对目标检测算法评估的影响，发现不同标注者意见的差异对算法的评估有很大影响，GT 的计算方法会对算法性能的排名产生很大的影响甚至可能导致算法性能被高估，且在某些数据集上很难确定一个算法优于另一个算法。

Jul, 2013

注释顺序很重要：适用于任意长度图像标注的循环图像注释器

该研究提出了一种新的递归图像注释器（RIA）模型，将图像注释任务形成为序列生成问题，以便 RIA 可以根据图像内容本地预测正确的标记长度。该模型在各种图像注释数据集上进行了评估，并显示其在任意长度图像标记任务上作为高质量基准的能力。此外，实验结果表明，在训练阶段中标记的顺序对最终注释性能有很大影响。

Apr, 2016