Jan, 2024

AUPIMO:利用高速和低容忍度重新定义视觉异常检测基准

TL;DR最近在视觉异常检测研究中取得的进展看到在公共基准数据集 (MVTec 和 VisA) 上的 AUROC 和 AUPRO 得分收敛于完美的召回率,给人一种这些基准已经接近解决的印象。然而,高 AUROC 和 AUPRO 得分并不总能反映出定性性能,这限制了这些度量在实际应用中的有效性。我们认为,由于缺乏适当的评估度量所带来的人为限制制约了该领域的进展,并且有必要重新审视用于评估算法的评估度量。为此,我们引入了 Per-IMage Overlap (PIMO),一种新颖的度量方法,解决了 AUROC 和 AUPRO 的不足之处。PIMO 保留了现有度量的基于召回率的特性,但引入了两个区别:曲线 (以及相应的曲线下面积) 的分配是以图像为单位的,而其 X 轴仅依赖于正常图像。通过每幅图像测量召回率,简化了实例分数索引并对噪声注释更加健壮。正如我们所展示的,它还加速了计算并使我们能够使用统计测试来比较模型。通过对正常图像施加低的误报容忍度,PIMO 提供了一个增强的模型验证过程,并突显了跨数据集的性能变化。我们的实验证明,PIMO 提供了实际的优势和细致的性能见解,重新定义了异常检测基准,特别是挑战了现代模型解决了 MVTec AD 和 VisA 数据集的看法。