CORA:使用区域提示和锚点预匹配来适应开放词汇检测的 CLIP 模型
RegionCLIP是一种新的方法,扩展了CLIP模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
提出一种基于DETR模型和Transformer模型的开放词汇检测器OV-DETR,该模型能够通过自然语言或示例图像输入,检测任何物体。通过在LVIS和COCO数据集上进行广泛实验,该模型证明了显著的性能提升。
Mar, 2022
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。
Nov, 2022
本文介绍了一种名为DetCLIPv2的训练框架,该框架采用大规模图像-文本对以实现开放词汇目标检测。DetCLIPv2直接从海量图像-文本对中学习了细粒度的单词-区域对齐,并通过融合来自检测、定位和图像-文本对数据的混合监督进行训练。DetCLIPv2采用交替方案和低分辨率输入有效地利用了图像-文本对数据,取得了超过之前工作的表现。
Apr, 2023
提出了一种区域感知的开放词汇视觉Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在LVIS和COCO开放词汇检测基准测试的最佳效果。
May, 2023
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种OVD方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR方法在OVD-COCO基准测试中取得了最佳表现,并相对于先前最先进水平获得了2.8的AP$_{50}$绝对增益。
Sep, 2023
基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像-文本对中学习,我们的方法能够利用对比损失学习到新出现的对象-语义线索,在LVIS和COCO基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
提出了一种邻近区域注意力对齐的方法,通过在一组邻近区域的注意力机制内进行对齐来提升开放词汇推理,进而协助检测器和预训练视觉语言模型之间的对齐,在开放词汇基准测试中展现出优秀的性能。
May, 2024
本研究解决了开放词汇检测中图像与区域表示之间的差距问题。提出了一个新颖的形状不变适配器SIA-OVD,通过为不同形状的区域学习特征适配器和优化适配器分配机制,显著提高了区域分类的准确性。实验表明,SIA-OVD在COCO-OVD基准测试中表现出显著的改进,潜在地提升了开放世界目标检测的效果。
Oct, 2024