Nov, 2022

仅依据指定的语言目标进行物体检测

TL;DR本文探讨了一种将物体检测转化为视觉与语言推理任务的方法,并提出了一种基于 Transformer 的编码器 - 解码器体系结构下的语言目标检测器(LTD),该方法将文本输入作为语言上下文进行推理,扩展了现有物体检测器的分类功能。通过对 COCO 数据集的检测表现进行评估,证明了 LTD 不仅可以改善物体检测结果,还可以通过文本输入与视觉对象的基础连接,更好地推理目标检测任务。