稀疏概率一致性

Aug, 2022

Sparse Probability of Agreement

Jeppe Nørregaard, Leon Derczynski

TL;DR本文提出 Sparse Probability of Agreement（SPA）的概念，以估计当没有所有标注 - 项目对可用时的协议概率，并提供多种加权方案处理不同程度标注的数据，其可成为无偏估计器。

Abstract

Measuring inter-annotator agreement is important for annotation tasks, but many metrics require a fully-annotated set of data, where all annotators annotate all samples. We define →

inter-annotator agreement annotation tasks sparse probability of agreement estimator weighing schemes

发现论文，激发创造

稀疏标注下的众包计数

本文介绍了一种名为 Sparse Annotation（SA）的新的众包计数注释方法，我们提出了一种基于点的渐进点匹配网络（PPM），通过 Sparse Annotation 更好地探索群众；实验结果表明，在注释数量相同的情况下，PPM 优于以前的半监督计数方法，并与最先进的全监督方法具有竞争性的性能。

Apr, 2023

关于数据标注的高效和统计质量估计

使用置信区间寻找估计注释错误率所需的最小样本量，然后提出应用接受抽样作为错误率估计的一种替代方法，展示接受抽样可以减少最多 50% 的所需样本量，同时提供相同的统计保证。

May, 2024

有界支持的高效在线标量注释

本文提出了一种高效的人工评分数据集构建以及系统质量评估方法，通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签，并将其应用于数据集构建和系统评估，以提高与真值的相关性和评估的效率。

Jun, 2018

在复杂结构化，多对象和自由文本注释任务中通常测量标注者的一致性

本研究探讨了复杂注释任务的 IAA 测量设计与评估，评估跨越了图像边界框、文本序列标记、排名列表、自由文本翻译、数值向量和语法树等 7 个多样化任务，并提出了两种新颖的 IAA 测量方法，显示它们在任务和注释距离函数之间产生了更一致的 IAA 测量。

Dec, 2022

保持一致性关键：使用标注者内一致性消除自然语言处理中的标签变化

该研究提出使用 intra-annotator agreement 衡量标签稳定性，通过 exploratory annotation experiments 探索其与主观性和歧义性之间的关系，为自然语言处理任务提供重要的质量控制。

Jan, 2023

扩散虚假属性：通过虚假属性估计提高最差组准确性

本文提出了一种名为 SSA 的伪属性增强算法，通过利用带有和不带有虚假属性注释的样本来预测虚假属性并最小化最差组损失来实现对噪声数据的高效识别和分类，同时证明了 SSA 算法比使用相同数量样本的基线方法更为有效，并可达到使用更小数量标注样本的方法相当的性能。

Apr, 2022

PICO 跨度标注中的一致性研究

本文研究了由多个人工标注员（包括专家和非专家）进行的 PICO 注释的一致性，并发现个体标注员的注释边界非常多样化，认为仅使用标准协议可能会削弱 PICO 跨度的一致性，同时采用标准和宽松协议更适用于 PICO 跨度评估。

Apr, 2019

硬度样本需量化以建立可靠的评估系统：探索新任务的潜在机会

通过给基准数据集中的未注释样本打分，我们提出了一种模型评估方法，用语义文本相似性评估该任务的基于难度的分数，比单纯的评估模型性能更准确，可以避免潜在的偏差以及更广泛的应用。

Oct, 2022

自然语言理解中样本量确定的重新审视

通过使用少量的训练样本来预测最大的可实现模型性能，以预测数据的质量和样本大小。

Jul, 2023

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022