区域感知预训练与视觉Transformer实现开放式目标检测
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。
Nov, 2022
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
CFM-ViT是一种图像-文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT在联合图像-文本嵌入空间中进行重构,以比传统的MAE方法更好地学习区域级语义。此外,引入位置嵌入丢弃(PED)来解决图像-文本预训练和检测微调之间的尺度变化,从而提高检测性能并利用冻结的ViT骨干作为区域分类器,避免在检测微调过程中遗忘开放词汇知识。在LVIS开放词汇检测基准下,CFM-ViT实现了33.9 AP$r$的最新成果,超过最佳方法7.6个点,并在零样本检测转移方面取得更好的效果。最后,CFM-ViT获得了强大的图像级表示,在8个零样本图像-文本检索基准中表现出了优于当前技术水平的成绩。
Sep, 2023
通过充分利用细粒度本地图像语义并使用早期稠密对齐(EDA)方法,我们提出了一种新的视觉-语言模型来改进开放词汇的目标检测,相较于现有方法,我们的方法在严格的设置下表现出更好的性能,无需使用外部训练资源,例如在COCO数据集上将新类别的box AP50提高了8.4%,在LVIS数据集上将稀有mask AP提高了3.9%。
Sep, 2023
基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像-文本对中学习,我们的方法能够利用对比损失学习到新出现的对象-语义线索,在LVIS和COCO基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
利用共现对象发现的方法,CoDet克服了对预对齐视觉-语言空间依赖的限制,通过图像标题中提及共享概念的图像分组,发现并与共享概念对齐共现对象,从而实现了对象级别的视觉-语言表示,具有卓越的性能和可扩展性。
Oct, 2023
DVDet是一个描述符增强的开放词汇检测器,引入条件上下文提示和分层文本描述符,实现了精确的区域-文本对齐以及一般的开放词汇检测训练。
Feb, 2024
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为GenerateU的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了GenerateU的强大的零样本检测性能。
Mar, 2024