非传统测试集：减少测试标注工作量

ICMLJul, 2020

非传统测试集：减少测试标注工作量

Not Your Grandfathers Test Set: Reducing Labeling Effort for Testing

Begum Taskazan, Jiri Navratil, Matthew Arnold, Anupama Murthi, Ganesh Venkataraman...

TL;DR提出一种简单但有效的方法来构建和维护高质量的测试集，该方法可以显著降低标记测试集的工作量，并引起测试过程的根本性重构。

Abstract

Building and maintaining high-quality test sets remains a laborious and expensive task. As a result, test sets in the real world are often not properly kept up to date and →

test sets labeling quality assurance drift maintenance

发现论文，激发创造

测试集中普遍出现标签错误，破坏机器学习基准

利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题，并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性，对于高比例的标记错误的现实世界数据集，低容量的模型可能比高容量的模型更实用。

Mar, 2021

主动测试：高效模型评估

本文介绍了一种新的样本效率模型评估框架 —— 主动测试，通过精心选择要标记的测试点，以充分利用样本，解决了现有文献大都忽略了标记测试数据的成本，从而导致模型评估与实际应用的脱节的问题，在理论上建立了基于目标的获取策略并做了进一步的改进，以消除引入的偏差并在相同时间内降低估计方差。

Mar, 2021

资源有限条件下的活动标签清洗，以提高数据集质量

本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题，通过对样本进行优先级排序，提高数据集质量，具有较好的可行性和高效性。

Sep, 2021

通过对比集评估模型的局部决策边界

提出了一种新的 NLP 注释范例，通过创建对照集，意在消除测试数据中的系统性差距，从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。

Apr, 2020

AQuA: 标签质量评估的基准测试工具

该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA，引入了标签错误检测模型的具体设计选择的设计空间，并希望借助该基准实现客观而严格的机器学习工具评估。

Jun, 2023

主动测试：一个高效和稳健的估计准确性的框架

本研究致力于解决在大型带噪数据集上扩大模型评估规模的问题，并采用主动测试框架，有效查询用户，以最小化审核，测试两种常见计算机视觉任务的性能指标，并表明该方法比其他评估协议更具稳健性，并能节省显着的人工标注工作量。

Jul, 2018

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

大规模图像分类数据集高效标注的良好实践

本文研究了一种高效的策略收集多类别图像集的分类标签，使用自监督学习技术并将标注问题视为半监督学习问题，并提出了有效的标注指南，用此方案对 ImageNet100 图像集进行模拟实验，结果表明每张图像平均仅需 0.35 个标注，即可标注到 80% 的 top-1 准确率，相比之前的工作和手动注释，分别提高了 2.7 倍和 6.7 倍。

Apr, 2021

数据中心机器学习的重新标记方法

本文介绍了一种简单的方法，通过使用模型的预测结果，找到并重新标记噪声数据，以解决部分手动标记数据质量不高的问题，并在多项深度学习任务中取得 90 分以上的成绩。实验结果和人类评价结果验证了该方法的有效性。

Feb, 2023

基于视觉丰富的文档提取模型数据标注成本的显著降低

提出使用选择性标注结合主动学习的方法，以简化对可预测提取的样本进行标注的成本，实验证明相比全额标注，该方法可将成本降低 10 倍同时精度不受影响，并且适用于不同领域的文档。

Oct, 2022