仅依据指定的语言目标进行物体检测

Nov, 2022

仅依据指定的语言目标进行物体检测

Detect Only What You Specify : Object Detection with Linguistic Target

Moyuru Yamada

TL;DR本文探讨了一种将物体检测转化为视觉与语言推理任务的方法，并提出了一种基于 Transformer 的编码器 - 解码器体系结构下的语言目标检测器（LTD），该方法将文本输入作为语言上下文进行推理，扩展了现有物体检测器的分类功能。通过对 COCO 数据集的检测表现进行评估，证明了 LTD 不仅可以改善物体检测结果，还可以通过文本输入与视觉对象的基础连接，更好地推理目标检测任务。

Abstract

object detection is a computer vision task of predicting a set of bounding boxes and category labels for each object of interest in a given image. The category is related to a linguistic symbol such as 'dog' or 'person' and there should be relationships among them. However the object d

object detection multi-modal models vision-and-language reasoning language-targeted detector transformer-based detector

发现论文，激发创造

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

通过使用大规模视觉和语言模型（VLM）作为模型骨干，以及基于 Transformer 的校准器，我们提出了 TaskCLIP，一个两阶段的设计用于任务导向的目标检测，实验结果表明我们的方法优于当前最先进的 TOIST 模型，并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。

Mar, 2024

语言条件的检测变压器

我们提出了一个新的开放词汇检测框架 DECOLA，该框架使用语言条件下的物体检测器和伪标签来实现零样本性能。

Nov, 2023

OmDet: 大规模视觉语言多数据集预训练的语言感知目标检测

本文提出一种基于多模态预训练的语言条件检测框架，能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”，解决多数据集训练中的技术难题，并成功应用于超过 35 个目标检测任务，取得最新成果。

Sep, 2022

使用自然语言描述的实时视觉目标跟踪

该研究提出一种利用自然语言描述的深度追踪器，通过使用 LSTM 跟踪器预测目标的更新，可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标，展示出色的性能。

Jul, 2019

DetGPT: 通过推理检测所需内容

本文提出了一种基于自然语言指令的推理型物体检测新范式，DetGPT，利用多模态模型和开放词汇物体检测器，在用户指导下自动定位对象，具有灵活性，适用于自动化和无人驾驶等多领域。

May, 2023

用于开放式物体检测的生成式区域语言预训练

生成式开放式物体检测是一种更通用、实用的问题，本论文提出了一个名为 GenerateU 的简单框架，将物体检测作为一个生成问题，可以以自由形式检测密集物体并生成它们的名称，通过广泛的实验验证了 GenerateU 的强大的零样本检测性能。

Mar, 2024

CoTDet：专注于任务驱动的物体检测的能力知识引导

本文提出了基于任务驱动的物体检测方法，通过探索基本意义而非物体类别来提取关键属性，并使用多级思维链激励法从大规模语言模型中提取与任务、物体示例和关键视觉属性相关的知识。进一步，我们提出了一种知识条件检测框架 CoTDet，有效利用知识来增强物体识别和定位，并得到支持物体检测的合理解释。实验证明，我们的 CoTDet 方法在性能上显著优于当前最先进的方法（提升 15.6 个方框 AP 值和 14.8 个掩膜 AP 值）。

Sep, 2023

利用视觉和语言模型开发目标检测算法的无标签数据

利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。

Jul, 2022

自然语言驱动下更加灵活精准的目标跟踪：算法与基准评估

本文提出了一种新的基于自然语言描述的目标跟踪方法，通过建立一个自然语言驱动的跟踪器的基准测试数据集，并提出了两个新的挑战来促进相关研究，旨在提高跟踪性能的灵活性、鲁棒性和准确性。

Mar, 2021