本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测,发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020
利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类,从而解决大规模获取标注数据的难题,并通过在学习过程中使用这些伪标签,展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。
Jul, 2022
本文提出了F-VLM,一种基于Frozen Vision and Language Models的简单开放式识别目标检测方法,通过消除知识蒸馏和定制化预训练,简化了现有的多阶段训练管道,实验结果表明 F-VLM 实现了优异的可扩展性,对于LVIS open-vocabulary detection benchmark实现了+6.5 mask AP的改进,并在COCO开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。
Sep, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。
Nov, 2022
提出了一种区域感知的开放词汇视觉Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在LVIS和COCO开放词汇检测基准测试的最佳效果。
May, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像-文本对中学习,我们的方法能够利用对比损失学习到新出现的对象-语义线索,在LVIS和COCO基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
我们提出了一个新的开放词汇检测框架 DECOLA,该框架使用语言条件下的物体检测器和伪标签来实现零样本性能。
Nov, 2023
生成式开放式物体检测是一种更通用、实用的问题,本论文提出了一个名为GenerateU的简单框架,将物体检测作为一个生成问题,可以以自由形式检测密集物体并生成它们的名称,通过广泛的实验验证了GenerateU的强大的零样本检测性能。
Mar, 2024