分类器准确性评估是否总是需要标签？

CVPRJul, 2020

分类器准确性评估是否总是需要标签？

Are Labels Always Necessary for Classifier Accuracy Evaluation?

Weijian Deng, Liang Zheng

TL;DR本文讨论了在存在未标记测试数据时自动模型评估的问题，并提出了一种利用采样数据和回归模型估计模型精度的方法，称之为 AutoEval。

Abstract

To calculate the model accuracy on a computer vision task, e.g., object recognition, we usually require a test set composing of test samples and their ground truth labels. Whilst standard usage cases satisfy this

model accuracy computer vision autoeval unlabeled test data regression models

发现论文，激发创造

自动评估的正确方法：使用合成数据进行模型评估

使用人工标注的验证数据评估机器学习模型是昂贵且耗时的，可以使用 AI 标记的合成数据进行自动评估以减少所需的人工标注数量。我们建议了一种高效且统计原则的算法，提高样本效率同时保持无偏性。这些算法在使用 GPT-4 进行实验时将有效人工标注样本的数量增加了 50%。

Mar, 2024

使用自训练集成方法检测未标记数据上的错误并估计准确性

本文提出了一个结合了模型集成学习和自训练的框架，用于解决深度学习模型在实际部署中遭遇训练数据分布不同的测试数据导致性能下降的问题，同时解决无监督准确度估计和错误检测两个挑战性任务，并在 59 项任务中取得了最优结果。

Jun, 2021

从无标签数据估算准确性：一种概率逻辑方法

我们提出了一种基于逻辑约束的多类别分类器准确度无标签估计方法，尝试使用基于分类器之间一致性的逻辑关系的猜想，从而得出准确估计值，实验证明了此方法在四个真实数据集上的有效性。

May, 2017

CAME：对比自动模型评估

提出了基于对比学习的自动模型评估（CAME）框架，通过在未标记 / 未见测试集上进行推导，建立了模型性能与对比损失之间的可预测关系，从而克服了现有自动模型评估方法中依赖训练集的问题，并在性能上显著超越了之前的工作。

Aug, 2023

标签是否需要以提高对抗性鲁棒性？

研究表明，使用未标记的数据进行训练可以作为对于耐受对抗攻击模型的有竞争力的替代方法，具体而言是在简单的统计情况下，学习对抗鲁棒模型的样本复杂度与完全受监督的情况一致。此外，使用未标记数据的无监督对抗训练方法可以在 CIFAR-10 这样的标准数据集上，使得鲁棒准确性比仅仅使用 4K 监督样例有 21.7% 的提升，并且可以捕捉到相同数量标记样例的改进量中超过 95% 的部分。最后，使用来自未筛选的 8000 万张小图片数据集的额外未标记数据，在 CIFAR-10 上击败了当前已知最强的攻击，展示了我们的发现也适用于未筛选的现实情况，从而为提高对抗训练打开了新的途径。

May, 2019

面向可泛化人工智能的无标注多视角三维行人检测：技术和性能分析

利用通用化人工智能改进无标签目标场景的多视角 3D 行人检测，通过使用未经训练的检测器的自动标注方法，可以获得比直接使用未经训练检测器或使用现有标记的源数据集训练的检测器更好的结果。在使用 WILDTRACK 和 MultiviewX 作为目标数据集时，MODA 比现有的无标签方法分别提高了 4% 和 1%。

Aug, 2023

无标记数据下多分类器准确率的估计

本研究通过谱方法，针对二元情况下的多个分类器预测结果，提出了一种无监督方法来估计分类器的准确性，同时构建了更准确的无监督集成分类器，并通过人工和真实数据集的实验表明了该算法的竞争性能。

Jul, 2014

现实世界视觉数据集中自动误标签检测的实证研究

计算机视觉中使用标记数据集是主要的进展，近期的研究工作提出了用于自动识别错误标记图像的方法，但在实际数据集中有效实施这些方法的策略仍未充分探索。本研究在多个数据集上对最近发展的自动化错误标记检测方法进行了详细评估，结果表明该方法在清理真实世界视觉数据集中性能相似甚至优于先前方法。通过精心设计方法，将该方法应用于真实世界计算机视觉数据集后，在较小的数据情况下使每个分类器的性能提高了 8%。

Dec, 2023

一种高效的模型评估框架：分层、抽样和估计

模型性能评估是机器学习和计算机视觉中的关键而昂贵的任务。在本文中，我们提出了一种模型评估的统计框架，包括分层、抽样和估计组成部分。我们的实验表明，通过基于准确的模型性能预测进行 k-means 聚类的分层方法能够提供比传统的简单随机抽样更为精确的准确度估计。

Jun, 2024

AQuA: 标签质量评估的基准测试工具

该论文提出了一个用于评估机器学习中标签错误的基准环境 AQuA，引入了标签错误检测模型的具体设计选择的设计空间，并希望借助该基准实现客观而严格的机器学习工具评估。

Jun, 2023