Aug, 2023

如何评估检测的泛化能力?一种用于综合开放词汇检测的基准测试

TL;DR计算机视觉中的目标检测在最近几年取得了显著进展,从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测,然而,当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力,这并不能提供一个系统、细粒度和准确的 OVD 模型能力的基准。本文提出了一个名为 OVDEval 的新基准,包括 9 个子任务,并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建,提供了具有挑战性的负样本,以考验模型对视觉和语言输入的真正理解。此外,我们还发现了在这些细粒度标签数据集上对模型进行基准测试时,流行的平均精度(AP)指标存在问题,并提出了一种称为非极大值抑制平均精度(NMS-AP)的新指标来解决这个问题。广泛的实验结果表明,现有的顶级 OVD 模型在除了简单对象类型之外的新任务上都失败了,证明了所提出数据集在指出当前 OVD 模型的弱点并引导未来研究方面的价值。此外,所提出的 NMS-AP 指标通过实验证明,它提供了对 OVD 模型的更真实评估,而传统 AP 指标产生了误导性的结果。数据可在 https://github.com/om-ai-lab/OVDEval 上获取。