非传统测试集:减少测试标注工作量
利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低容量的模型可能比高容量的模型更实用。
Mar, 2021
本文介绍了一种新的样本效率模型评估框架 —— 主动测试,通过精心选择要标记的测试点,以充分利用样本,解决了现有文献大都忽略了标记测试数据的成本,从而导致模型评估与实际应用的脱节的问题,在理论上建立了基于目标的获取策略并做了进一步的改进,以消除引入的偏差并在相同时间内降低估计方差。
Mar, 2021
本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题,通过对样本进行优先级排序,提高数据集质量,具有较好的可行性和高效性。
Sep, 2021
提出了一种新的 NLP 注释范例,通过创建对照集,意在消除测试数据中的系统性差距,从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。
Apr, 2020
该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA,引入了标签错误检测模型的具体设计选择的设计空间,并希望借助该基准实现客观而严格的机器学习工具评估。
Jun, 2023
本研究致力于解决在大型带噪数据集上扩大模型评估规模的问题,并采用主动测试框架,有效查询用户,以最小化审核,测试两种常见计算机视觉任务的性能指标,并表明该方法比其他评估协议更具稳健性,并能节省显着的人工标注工作量。
Jul, 2018
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文研究了一种高效的策略收集多类别图像集的分类标签,使用自监督学习技术并将标注问题视为半监督学习问题,并提出了有效的标注指南,用此方案对 ImageNet100 图像集进行模拟实验,结果表明每张图像平均仅需 0.35 个标注,即可标注到 80% 的 top-1 准确率,相比之前的工作和手动注释,分别提高了 2.7 倍和 6.7 倍。
Apr, 2021
本文介绍了一种简单的方法,通过使用模型的预测结果,找到并重新标记噪声数据,以解决部分手动标记数据质量不高的问题,并在多项深度学习任务中取得 90 分以上的成绩。实验结果和人类评价结果验证了该方法的有效性。
Feb, 2023
提出使用选择性标注结合主动学习的方法,以简化对可预测提取的样本进行标注的成本,实验证明相比全额标注,该方法可将成本降低 10 倍同时精度不受影响,并且适用于不同领域的文档。
Oct, 2022