- DST-Det: 开放词汇目标检测的简单动态自训练
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
- ICCV对比特征遮罩开放词汇视觉变换器
CFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方 - 开探多模态上下文知识的开放词汇物体检测
该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
- 改进开放词汇目标检测的伪标签
通过在线自训练和分割融合头以减少预训练视觉语言模型生成的噪声伪标签并提高开放词汇目标检测性能。
- 揭示描述物体检测中的问题制造者
通过构建 $D^3$ 数据集,我们提出了一种基于二元分类子任务的基线方法,它通过重构训练数据并引入二元分类子任务来大幅改进 Referring Expression Comprehension 方法,并在 Described Object - 通过场景图检索进行开放词汇目标检测
该研究提出了一种基于场景图的发现网络(SGDN),利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性,并且能够解决以往方法无法处理的 OV 场景图生成任务。
- 开放词汇物体检测的扩展
本文提出了 OWL-ST 模型用于 scale up detection data in open-vocabulary object detection 问题中应用,大幅提升了模型性能,同时最终实现了 Web-scale training - ICML开放词汇物体检测的多模式分类器
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实 - CVPR区域感知预训练与视觉 Transformer 实现开放式目标检测
提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。
- MaMMUT:联合学习多模态任务的简单架构
我们提出了一种使用解码器模型进行多模式任务训练的新范例,其中 MaMMUT 作为一个简单的模型,能够通过新颖的文本解码器的两次传递方法容纳对比和生成学习,并能够直接扩展到开放词汇的对象检测和视频语言任务,且该模型在多个任务上均取得了最佳效果 - CVPR面向开放词汇物体检测的目标感知蒸馏金字塔
本研究提出了一种基于目标感知的提取知识框架 OADP,包括 OAKE 模块和 DP 机制,通过自适应变换目标提案和引入全局和块知识提取以弥补对象精炼中的信息缺失。在 MS-COCO 数据集上,该方法取得了显著的改进。
- CVPR使用视觉语言模型学习开放词汇物体检测提示
本文提出一种名为 DetPro 的新方法,以学习基于预先训练的视觉 - 语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro 具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分 - ECCV具有条件匹配的 Open-Vocabulary DETR
提出一种基于 DETR 模型和 Transformer 模型的开放词汇检测器 OV-DETR,该模型能够通过自然语言或示例图像输入,检测任何物体。通过在 LVIS 和 COCO 数据集上进行广泛实验,该模型证明了显著的性能提升。
- 使用分层视觉语言知识蒸馏进行开放词汇单阶段检测
本文提出了一种层次化的视觉 - 语言知识蒸馏方法 (HierKD) 用于开放词汇的单阶检测,该方法探索全局级别的知识蒸馏来传递来自预训练视觉语言模型的未知类别的知识到检测器,并将全局级别知识蒸馏和常见的实例级别知识蒸馏相结合,从而同时学习已 - ICLR通过视觉和语言知识蒸馏进行开放式目标检测
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
- CVPR使用字幕的开放词汇物体检测
本文提出了一种称为开放词汇物体检测的新型物体检测问题,利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器,可以在更低的成本下覆盖更广泛的物体范围,成功地解决了物体检测中监督要求高的问题,并且更具实用性和效率,可以检测和定位那