使用文本描述来训练文本分类器,并从中获取足够的信息进行目标实例的弱监督检测,从而实现对于大量自由上传图像信息数据的有效物体定位。
Jul, 2019
本研究提出一种方法,从大规模图像 - 字幕对中自动生成多样物体的伪包围框注释,以扩大训练基础类别的范围,并通过实验证明该方法在各种数据集上比最先进的开放词汇检测器有更好的检测结果。
Nov, 2021
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。
Nov, 2022
该研究提出了一种名为Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法,并利用视觉语言(VL)模型和自监督视觉变压器(ViTs)进行实验,取得了较好的结果。
本文综述了开放式词汇学习的最新动态,强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较,并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现,开放式词汇学习方法在实践中更具广泛性、有效性和实用性,未来仍有许多探索余地。
通过充分利用细粒度本地图像语义并使用早期稠密对齐(EDA)方法,我们提出了一种新的视觉-语言模型来改进开放词汇的目标检测,相较于现有方法,我们的方法在严格的设置下表现出更好的性能,无需使用外部训练资源,例如在COCO数据集上将新类别的box AP50提高了8.4%,在LVIS数据集上将稀有mask AP提高了3.9%。
Sep, 2023