AUPIMO：利用高速和低容忍度重新定义视觉异常检测基准

Jan, 2024

AUPIMO：利用高速和低容忍度重新定义视觉异常检测基准

AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance

Joao P. C. Bertoldo, Dick Ameln, Ashwin Vaidya, Samet Akçay

TL;DR最近在视觉异常检测研究中取得的进展看到在公共基准数据集 (MVTec 和 VisA) 上的 AUROC 和 AUPRO 得分收敛于完美的召回率，给人一种这些基准已经接近解决的印象。然而，高 AUROC 和 AUPRO 得分并不总能反映出定性性能，这限制了这些度量在实际应用中的有效性。我们认为，由于缺乏适当的评估度量所带来的人为限制制约了该领域的进展，并且有必要重新审视用于评估算法的评估度量。为此，我们引入了 Per-IMage Overlap (PIMO)，一种新颖的度量方法，解决了 AUROC 和 AUPRO 的不足之处。PIMO 保留了现有度量的基于召回率的特性，但引入了两个区别：曲线 (以及相应的曲线下面积) 的分配是以图像为单位的，而其 X 轴仅依赖于正常图像。通过每幅图像测量召回率，简化了实例分数索引并对噪声注释更加健壮。正如我们所展示的，它还加速了计算并使我们能够使用统计测试来比较模型。通过对正常图像施加低的误报容忍度，PIMO 提供了一个增强的模型验证过程，并突显了跨数据集的性能变化。我们的实验证明，PIMO 提供了实际的优势和细致的性能见解，重新定义了异常检测基准，特别是挑战了现代模型解决了 MVTec AD 和 VisA 数据集的看法。

Abstract

Recent advances in visual anomaly detection research have seen auroc and aupro scores on public benchmark datasets such as MVTec and VisA

visual anomaly detection auroc aupro evaluation metrics per-image overlap

发现论文，激发创造

深入研究类别不平衡下的 AUROC 和 AUPRC

通过新颖的数学分析，本文挑战并证明按照概率的观点，AUPRC（精确率 - 召回率曲线下的面积）和 AUROC（接收者操作特征曲线下的面积）可以简洁地相互关联。同时，通过对超过 150 万篇论文的大规模语言模型分析，揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势，强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。

Jan, 2024

一个非监督的信息理论感知质量评估度量

通过结合信息理论目标函数的最新进展和基于人类视觉系统的计算体系结构，以及对成对视频帧进行无监督训练，我们提出了感知信息度量（PIM），并在 BAPPS 图像质量评估数据集上证明 PIM 与监督度量相媲美，且在 CLIC 2020 的图像压缩方法排名预测方面优于监督度量，同时使用 ImageNet-C 数据集进行定性实验，证明 PIM 在架构细节方面具有鲁棒性。

Jun, 2020

带有可证收敛性的精确度 - 召回曲线下面积的随机优化

本文提出一种基于 AUPRC pipeline 的技术方法，采用 SOAP 采样算法来提高分类性能，并利用最新的随机组合优化技术进行优化。该方法在图像和图形数据集上的实验结果表明，在 AUPRC 方面，我们的方法优于先前的方法。这是首次尝试通过证明收敛性来优化 AUPRC。

Apr, 2021

评估 ODD 性能的超出 AUROC 等指标

岂止是用二分类任务来衡量 out-of-distribution detection 的性能，并且几乎没有考虑到检测阈值的影响，因此我们提出了一个新的评价指标 ——Threshold Curve 下的面积（AUTC），来惩罚 ID 和 OOD 之间差异性不足的情况。

Jun, 2023

场景文本检测中的紧密性感知评估协议

本文提出了一种新的评估协议，称为紧密感知交集联合（TIoU）度量，旨在解决现有度量的一些明显缺陷，并提供了一种简单有效的解决方案来同时识别文本线和单词检测，并通过实验表明他们的方法更紧密、更有利于识别，代码公开在此 https URL。

Mar, 2019

伪交并比：改进基于锚点无监督目标检测中标签分配

本研究提出了 Pseudo-Intersection-over-Union (Pseudo-IoU) 指标，通过将其融入端到端单级别无锚点物体检测框架，可以实现更加标准化和准确的规则分配，从而提高 PASCAL VOC 和 MSCOCO 等常规物体检测基准测试的性能。

Apr, 2021

多指标、多器官医学图像分割模型的评估

本研究提出了一种全面的评估医学图像分割模型的方法，名为 MIMO，它允许模型生成独立的阈值，然后与多指标评估和置信度估计相结合，对每个器官进行筛选和测量。实验结果表明，MIMO 为多指标和多器官医学图像评估提供了新的见解，并为模型的可用性和全面性提供了明确的度量。

Jun, 2023

使用预训练网络进行完全无监督的视觉检查的数据细化

本文研究使用深度预训练神经网络提取特征的传统离群值检测技术在 MVTec Anomaly Detection 数据集上交出的出色成绩在全无监督场景下的鲁棒性，提出了一种简单的单类分类策略（SROC），并证明其在与现有文献中更复杂的策略竞争时具有更好的性能。

Feb, 2022

利用边际排名下的面积识别错误标记的数据

文章提出了一种新方法，使用区域下的边缘（AUM）统计量识别训练集中的错误标记数据，并通过添加一个带有特定错误标记样本的额外类来学习 AUM 上限以分离标记错误的数据。在 WebVision50 分类任务中，该方法去除了 17％的训练数据，产生了 1.6％（绝对）的测试误差改进，在 CIFAR100 上删除 13％的数据可导致 1.2％的误差下降。

Jan, 2020

用一项指标衡量所有事物：本地化召回率精度（LRP）用于评估视觉检测任务

本文提出了基于定位和分类质量的视觉检测器的匹配误差的平均值作为 Localisation Recall Precision (LRP) 误差的测量方式。同时还引入了 oLRP 误差作为评估视觉检测器的最佳阈值。基于近 100 个最先进的视觉检测器，使用 10 个数据集进行了比较，发现 LRP 误差提供了比其他方法更丰富和更有区分度的信息。

Nov, 2020