Feb, 2021

评估大词汇物体检测器:细节决定成败

TL;DR本文提出两种互补度量标准来解决在大词汇量和高实例数条件下,AP-Pool 评价指标的缺陷。我们发现,在对交叉类别进行再排序的情况下,这种缺陷形成了可操纵的指标,简单的再排序策略可以大幅提高平均精确度,而我们的新评估表明,许多报告的进展并未转化为改进,并考虑一种加权平均精确度的池化版本来奖励逐类别排序的合理性。最后,通过显式校准检测器,我们重新审视了经典的校准方法,并发现在 AP-Pool 上显式校准检测器可以将其最先进的水平提高1.7个点。