Mar, 2024

实时基于 Transformer 的开放词汇检测与高效融合头部

TL;DR基于端到端的基于 Transformer 的检测器(DETRs)通过语言模态的融合在封闭集和开放词汇目标检测(OVD)任务中展现出了异常优秀的性能。然而,其对计算资源的需求限制了其在实时目标检测(OD)场景中的实际应用。本文针对 OVDEval 基准测试中两个主要模型 OmDet 和 Grounding-DINO 的限制进行了详细研究,并引入了 OmDet-Turbo。这个新型的基于 Transformer 的实时 OVD 模型具备创新的高效融合头(EFH)模块,旨在缓解 OmDet 和 Grounding-DINO 中存在的瓶颈问题。值得注意的是,OmDet-Turbo-Base 在应用 TensorRT 和语言缓存技术的情况下,实现了 100.2 帧 / 秒(FPS)的速度。值得注意的是,在 COCO 和 LVIS 数据集的零样本情况下,OmDet-Turbo 实现了与当前最先进的有监督模型几乎相当的性能水平。此外,它在 ODinW 和 OVDEval 上建立了新的最先进基准,分别具有 30.1 的 AP 和 26.86 的 NMS-AP。OmDet-Turbo 在工业应用中的实用性得到了证明,其在基准数据集上表现出的优异性能和卓越的推理速度使其成为实时目标检测任务的一个引人注目的选择。