CoTDet：专注于任务驱动的物体检测的能力知识引导

ICCVSep, 2023

CoTDet：专注于任务驱动的物体检测的能力知识引导

CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection

Jiajin Tang, Ge Zheng, Jingyi Yu, Sibei Yang

TL;DR本文提出了基于任务驱动的物体检测方法，通过探索基本意义而非物体类别来提取关键属性，并使用多级思维链激励法从大规模语言模型中提取与任务、物体示例和关键视觉属性相关的知识。进一步，我们提出了一种知识条件检测框架 CoTDet，有效利用知识来增强物体识别和定位，并得到支持物体检测的合理解释。实验证明，我们的 CoTDet 方法在性能上显著优于当前最先进的方法（提升 15.6 个方框 AP 值和 14.8 个掩膜 AP 值）。

Abstract

task driven object detection aims to detect object instances suitable for affording a task in an image. Its challenge lies in object categories available for the task being too diverse to be limited to a closed set of object vocabulary for traditional object detection. Simply mapping c

task driven object detection affordances multi-level chain-of-thought prompting knowledge-conditional detection framework object recognition and localization

发现论文，激发创造

CoDet：开放词汇目标检测的共现导向区域 - 词对齐

利用共现对象发现的方法，CoDet 克服了对预对齐视觉 - 语言空间依赖的限制，通过图像标题中提及共享概念的图像分组，发现并与共享概念对齐共现对象，从而实现了对象级别的视觉 - 语言表示，具有卓越的性能和可扩展性。

Oct, 2023

基于可支配性迁移学习的人 - 物互动检测

引入了一种可用于检测新物体的人 - 物互动以及识别物体能力的 “可供性转移学习方法”，有效提高了对新物体的 HOI 检测表现，并能够通过已知关于物体能力的表示信息来推断新物体的能力，并在 HICO-DET 以及 HOI-COCO 两个数据集上取得了显著的性能提升。

Apr, 2021

我该使用什么对象？- 任务驱动的对象检测

为了解决机器人或其他自主系统在特定任务中使用哪种对象的问题，介绍了 COCO-Tasks 数据集和利用带门控图神经网络的方法，利用对象的外观以及场景中所有对象的全局环境来检测适合给定任务的最适合的对象。

Apr, 2019

仅依据指定的语言目标进行物体检测

本文探讨了一种将物体检测转化为视觉与语言推理任务的方法，并提出了一种基于 Transformer 的编码器 - 解码器体系结构下的语言目标检测器（LTD），该方法将文本输入作为语言上下文进行推理，扩展了现有物体检测器的分类功能。通过对 COCO 数据集的检测表现进行评估，证明了 LTD 不仅可以改善物体检测结果，还可以通过文本输入与视觉对象的基础连接，更好地推理目标检测任务。

Nov, 2022

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

DetCo: 无监督对比学习物体检测

DetCo 是一种创新的对比学习方法，通过充分探索全局图像和局部图像补丁之间的对比，学习有助于目标检测的判别性表示，实验表明其不仅在目标检测方面优于现有方法，在分割，姿态估计和三维形状预测方面也显著优于监督方法。

Feb, 2021

开放世界物体检测的 LoCalization 和 IdentificAtion Cascade Detection Transformer

本文提出了一种名为 CAT 的 LoCalization and IdentificAtion Cascade Detection Transformer，并采用自适应的伪标签机制，使其能够提高开放世界目标检测、增量目标检测和开放集检测任务的表现。

Jan, 2023

超越物体识别：朝向物体概念学习的新基准

本研究介绍了一个挑战性的物体概念学习 (OCL) 任务，旨在推动物体理解的发展，要求机器推理出物体的可负担性和同时给出推理：什么属性使物体具有这些可负担能力，并建立了一个密集注释的知识库来支持 OCL。我们提出了一个基于因果干预和概念实例化的基线模型，名为 Object Concept Reasoning Network (OCRN)，以有效推断物体知识，并指出 OCRN 在遵循因果关系时能够有效地推导出物体知识。

Dec, 2022

家用机器人的物理推理与物体规划

本研究介绍了 CommonSense Object Affordance Task（COAT），一个分析常识场景中推理能力的新框架，通过三个精心设计的常识问答数据集以及对最新语言模型的评估，探索了任务规划和替代对象选择的复杂性，并提出了物理常识推理在语言模型中的应用。

Nov, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近，大型语言模型（LLMs）通过利用思维链（CoT）在仅使用语言模态上取得了显著的多步推理进展，然而，将这些进展应用于多模态情境引入了更高的挑战，其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理，该研究首先对多模态提出的这些挑战进行了深入分析，并提出了两个关键见解：“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外，该研究提出了一种新颖的 DDCoT 提示，通过负空间提示保持临界态度，并通过首先将 LLMs 的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力，显著超过了最先进的方法，而且还展示出令人印象深刻的泛化性和可解释性。

Oct, 2023