DiPEx：无关类物体检测的提示扩展分散

Jun, 2024

DiPEx：无关类物体检测的提示扩展分散

DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection

Jia Syuen Lim, Zhuoxiao Chen, Mahsa Baktashmotlagh, Zhi Chen, Xin Yu...

TL;DR通过自我监督的提示学习策略，使用视觉-语言模型以及逐步学习来扩展一组不同的、非重叠的超球形提示，以提高召回率和在下游任务中的性能。

Abstract

class-agnostic object detection (OD) can be a cornerstone or a bottleneck for many downstream vision tasks. Despite considerable advancements in bottom-up and multi-object discovery methods that leverage basic visual cues to identify salient objects, consistently achieving a high recal

发现论文，激发创造

使用视觉语言模型学习开放词汇物体检测提示

本文提出一种名为DetPro的新方法，以学习基于预先训练的视觉-语言模型的连续提示表示，用于开放词汇物体检测。与以前的分类为导向的方法不同，DetPro具有两个亮点：1）背景解释方案，包括图像背景中的提议进入提示训练；2）上下文分级方案，用于分离定制提示训练中的图像前景中的建议。通过将DetPro与状态-of-the-art的开放世界对象检测器ViLD组装在一起，并在LVIS以及Pascal VOC，COCO，Objects365数据集上进行实验，实验结果表明，我们的DetPro在所有设置中都优于基线ViLD，例如在LVIS的新颖类上提高了3.4 APbox和3.0 APmask。

Mar, 2022

PromptDet: 利用未校准的图像实现开放词汇检测

本文提出了一种可扩展的对象检测流程，使用零手动标注扩展到新颖/不可见类别，该过程包含开放词汇表的对象检测器、区域提示学习、自我训练等四个部分，并通过对挑战性数据集的广泛实验表明了其优于现有方法。

Mar, 2022

DesCo: 利用丰富的语言描述学习物体识别

该研究提出了一种新的描述条件（DesCo）学习范式，利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力，从而在零样本检测环境下，超越了先前的最先进模型，以提高物体识别的准确性。

Jun, 2023

提示类别探讨弱监督语义分割中的提示类别学习的力量

本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略，在弱监督语义分割（WSSS）问题上实现最先进的性能，并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。

Jun, 2023

DST-Det: 开放词汇目标检测的简单动态自训练

使用开放词汇的目标检测方法，通过利用预训练的视觉语言模型的零样本分类能力，直接对所有可能的新类别的建议进行分类，而不需要额外的注释或数据集。

Oct, 2023

基于先验训练的开放集检测中视觉提示的探索

通过学习新类别知识并利用统计学构建模块，以及任务特定相似性字典的设计，我们提出了一种新的视觉提示方法，可以将预训练的检测模型推广到新类别，并在组合推理中表现出更好的性能。

Dec, 2023

利用元提示表示和实例对比优化的开放词汇目标检测

通过使用元提示和实例对比学习方案，我们提出了一种新的框架来解决过拟合、依赖额外数据和复杂训练过程的问题，此框架在检测新类别对象方面显示出优于现有复杂技术训练的方法的良好的泛化能力。

Mar, 2024

T-Rex2：通过文本-视觉提示协同实现通用物体检测

我们提出了T-Rex2，这是一个高度实用的模型，用于开放集目标检测，通过对比学习，T-Rex2结合了文本提示和视觉提示的优势，在不同场景中能够展示出卓越的零样本目标检测能力。

Mar, 2024

利用学习背景提示来发现开放词汇对象检测的隐含知识

提出了一种新颖的开放式词汇目标检测（OVD）框架，通过学习背景提示来增强检测性能，涉及背景解释、模型过拟合和检测性能等方面的问题。在OV-COCO和OV-LVIS两个基准数据集上的评估结果表明，我们提出的方法在处理OVD任务时优于现有的最先进方法。

Jun, 2024

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024