改进开放词汇目标检测的伪标签
本研究提出一种方法,从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释,以扩大训练基础类别的范围,并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。
Nov, 2021
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类,从而解决大规模获取标注数据的难题,并通过在学习过程中使用这些伪标签,展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。
Jul, 2022
该研究提出了一种名为Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023
本文提出了OWL-ST模型用于scale up detection data in open-vocabulary object detection问题中应用,大幅提升了模型性能,同时最终实现了Web-scale training的目的。
Jun, 2023
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种OVD方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR方法在OVD-COCO基准测试中取得了最佳表现,并相对于先前最先进水平获得了2.8的AP$_{50}$绝对增益。
Sep, 2023
基于检测导向的图像-文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像-文本对中学习,我们的方法能够利用对比损失学习到新出现的对象-语义线索,在LVIS和COCO基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
本文提出了一种简单而有效的方法,用于直接学习任意概念的区域-文本对齐,从而在开放词汇目标检测方面取得有竞争力的性能和在任意概念的指称表达理解方面取得显著的改进。
Dec, 2023