有界支持的高效在线标量注释

ACLJun, 2018

Efficient Online Scalar Annotation with Bounded Support

Keisuke Sakaguchi, Benjamin Van Durme

TL;DR本文提出了一种高效的人工评分数据集构建以及系统质量评估方法，通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签，并将其应用于数据集构建和系统评估，以提高与真值的相关性和评估的效率。

Abstract

We describe a novel method for efficiently eliciting scalar annotations for dataset construction and system quality estimation by human judgments. We contrast →

dataset construction system quality estimation direct assessment online pairwise ranking aggregation easl

发现论文，激发创造

高效在线众包任务与复杂注释

在线众包平台的真实性发现算法在聚合多个标注人的注释时起着重要作用，本论文提出了一种适用于在线众包环境的新方法，能够在有效平衡成本（即标注数量）和注释质量的同时，对一般复杂注释（如边界框和分类路径）进行推断，该方法以 label 者的准确度为线性期望平均相似度，经过对 Meta 真实众包数据的广泛评估后，展示了我们提出的在线算法在改善成本 - 质量权衡方面的有效性。

Jan, 2024

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

您是一个专家标注员”：情绪强度建模的自动最佳最差标度标注

大语言模型对于分类注释的自动化主要用于处理标注语料库的瓶颈问题，但对于连续标签分配的自动化注释尚无相关研究。本研究通过对情感强度进行自动化预测，并比较直接使用评分标注、两两比较和最佳 - 最差比例三种方法，发现最后一种方法具有最高的可靠性。在这些数据上微调的 Transformer 回归器表现几乎与原始手动标注模型相当。

Mar, 2024

大规模图像分类数据集高效标注的良好实践

本文研究了一种高效的策略收集多类别图像集的分类标签，使用自监督学习技术并将标注问题视为半监督学习问题，并提出了有效的标注指南，用此方案对 ImageNet100 图像集进行模拟实验，结果表明每张图像平均仅需 0.35 个标注，即可标注到 80% 的 top-1 准确率，相比之前的工作和手动注释，分别提高了 2.7 倍和 6.7 倍。

Apr, 2021

利用自然语言解释缩放人类判断

本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

May, 2023

最佳 - 最差量表比打分量表更可靠：一个情感强度标注的案例研究

本研究比较了评分尺度方法和最佳 - 最差比较法在数据注释中的可靠性，结果表明，在相同的标注总数量下，最佳 - 最差比较法比评分尺度方法产生了更可靠的结果。

Dec, 2017

必须是主观的：通过零样本密度估计进行人类注释者模拟

本研究提出了一种新的元学习框架，将人类注释器模拟作为一种零样本密度估计问题，以更好地模拟人们感知和与世界互动的方式，该方法在三个真实世界的人类评估任务上展示了出色的能力和效率，以预测人类注释者的行为、与人类注释的分布相匹配以及模拟注释者之间的不一致性。

Sep, 2023

稀疏且噪音标注下的主动学习标签鲁棒分配

利用未标记的样本空间，我们提出了两种新的注释统一算法，旨在解决主动学习中存在的错误数据标注问题，并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性，超过了现有算法和简单的多数投票。

Jul, 2023

EASE: 一种由效率增强机制驱动的易定制的注释系统

提供一款可定制的注释系统 ——EASE，使用多任务主动学习、基于人口统计特征的主动学习和查询大型语言模型的提示系统作为多个后端选项，可以满足自然语言处理研究人员的多样化需求，并显著加速注释过程。

May, 2023

从有偏毒性标签学习的实证研究

本研究探讨不同训练策略如何利用少量人工注释标签和大量但带有偏见的合成标签（针对身份群体）来预测在线评论的毒性，并评估了这些方法的准确性和公正性。虽然最初使用所有数据进行训练并在干净数据上微调能够产生具有最高 AUC 的模型，但同时我们发现没有一种策略在所有公正度量标准上表现最佳。

Oct, 2021