Jul, 2024

关系DETR:探索目标检测中的显式位置关系先验

TL;DR本文提出了一种用于增强DET R(Detection Transformer)的收敛性和性能的通用方案,通过探索将位置关系先验作为注意力偏置来增强对象检测。该方法引入编码器来构建位置关系嵌入,以逐步改进注意力,进一步将DET R传统的流水线扩展为对比关系流水线,以解决非重复预测和正面监督之间的冲突。对通用和特定任务的数据集进行的广泛实验验证了该方法的有效性,并且相较于DINO,与现有的DET R检测器相比,在COCO val2017上获得了显著的改进(+2.0%AP),最新的性能(1x: 51.7% AP,2x: 52.1% AP)和更快的收敛速度(仅2个训练周期时AP提高超过40%)。此外,提出的关系编码器作为一种通用的即插即用组件,为理论上的任何DET R类方法带来明显改进。还引入了一个类无关的检测数据集(SA-Det-100k),实验结果表明,显式位置关系的提出提高了1.3%的AP,凸显了它对通用目标检测的潜力。