野外数据集标注质量管理分析

Jul, 2023

Analyzing Dataset Annotation Quality Management in the Wild

Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych

TL;DR文章调研了自然语言数据集创作的质量管理实践，分析了 591 个科学出版物并发现了其普遍存在的错误和 30% 的工作只达到了次级水平，尤其在使用标注错误率和计算注释错误率方面存在常见错误。

Abstract

data quality is crucial for training accurate, unbiased, and trustworthy machine learning models and their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evalua

data quality machine learning models natural language datasets quality management practices annotation error rates

发现论文，激发创造

注释错误检测：分析过去和现在，创造更连贯的未来

本文重新实现并评估了 18 种检测可能存在的注释错误的方法，并在 9 个英文数据集上进行了评估，同时提供了评估协议和实现的开源软件包，以促进未来的研究和再现性。

Jun, 2022

使用 Krippendorff Alpha 评估注释数据的质量，用于计算机视觉应用

本文旨在研究深度学习模型中标注数据的影响因素，以及如何通过监测数据标注质量来提高算法精度和准确性。通过多个数据标注实验，作者发现标注过程、训练数据和评估数据等因素是确保 AI 系统可信度的基本要素。

Dec, 2019

关于数据标注的高效和统计质量估计

使用置信区间寻找估计注释错误率所需的最小样本量，然后提出应用接受抽样作为错误率估计的一种替代方法，展示接受抽样可以减少最多 50% 的所需样本量，同时提供相同的统计保证。

May, 2024

大规模图像分类数据集高效标注的良好实践

本文研究了一种高效的策略收集多类别图像集的分类标签，使用自监督学习技术并将标注问题视为半监督学习问题，并提出了有效的标注指南，用此方案对 ImageNet100 图像集进行模拟实验，结果表明每张图像平均仅需 0.35 个标注，即可标注到 80% 的 top-1 准确率，相比之前的工作和手动注释，分别提高了 2.7 倍和 6.7 倍。

Apr, 2021

ML 基础关键短语提取与验证的科学文本自动标注

本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据，特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明，所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签，其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。

Nov, 2023

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

通过手动注释提高问答性能：成本、效益和策略

本文介绍并公开发布了 PolQA，这是第一个用于 OpenQA 的波兰语数据集。该数据集包含 7,000 个问题，87,525 个手动标注的证据段落和超过 7,097,322 个候选段落。该资源允许我们评估不同注释选择对 QA 系统性能的影响，并提出一种有效的注释策略，使召回率提高了 10.55 p.p. 并同时将注释成本降低了 82％。

Dec, 2022

视觉和语言数据集创建的注释方法学

探讨了在创造和验证视觉和语言注释数据集时所面临的困难和问题，指出现有数据集反映了数据选择和注释过程中出现的问题。

Jul, 2016

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

多次注释数据集的性能分数可能会因数据集扩大，从单个注释变为多个注释而有所不同，我们的研究挑战了传统观念，表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。

Oct, 2023