本文重新实现并评估了 18 种检测可能存在的注释错误的方法,并在 9 个英文数据集上进行了评估,同时提供了评估协议和实现的开源软件包,以促进未来的研究和再现性。
Jun, 2022
本文旨在研究深度学习模型中标注数据的影响因素,以及如何通过监测数据标注质量来提高算法精度和准确性。通过多个数据标注实验,作者发现标注过程、训练数据和评估数据等因素是确保 AI 系统可信度的基本要素。
Dec, 2019
使用置信区间寻找估计注释错误率所需的最小样本量,然后提出应用接受抽样作为错误率估计的一种替代方法,展示接受抽样可以减少最多 50% 的所需样本量,同时提供相同的统计保证。
May, 2024
本文研究了一种高效的策略收集多类别图像集的分类标签,使用自监督学习技术并将标注问题视为半监督学习问题,并提出了有效的标注指南,用此方案对 ImageNet100 图像集进行模拟实验,结果表明每张图像平均仅需 0.35 个标注,即可标注到 80% 的 top-1 准确率,相比之前的工作和手动注释,分别提高了 2.7 倍和 6.7 倍。
Apr, 2021
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023
通过新的基于模型的方法,我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式,从而最大程度地减少注释数量,并且几乎不损失知识,同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求,并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系,此外,对于某些数据集,仅依靠我们模型预测的标签进行训练,可作为自监督学习规范化技术,提高任务选择的效率。
Dec, 2023
本文介绍并公开发布了 PolQA,这是第一个用于 OpenQA 的波兰语数据集。该数据集包含 7,000 个问题,87,525 个手动标注的证据段落和超过 7,097,322 个候选段落。该资源允许我们评估不同注释选择对 QA 系统性能的影响,并提出一种有效的注释策略,使召回率提高了 10.55 p.p. 并同时将注释成本降低了 82%。
Dec, 2022
探讨了在创造和验证视觉和语言注释数据集时所面临的困难和问题,指出现有数据集反映了数据选择和注释过程中出现的问题。
Jul, 2016
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
多次注释数据集的性能分数可能会因数据集扩大,从单个注释变为多个注释而有所不同,我们的研究挑战了传统观念,表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。
Oct, 2023