语言条件的检测变压器
提出一种基于 DETR 模型和 Transformer 模型的开放词汇检测器 OV-DETR,该模型能够通过自然语言或示例图像输入,检测任何物体。通过在 LVIS 和 COCO 数据集上进行广泛实验,该模型证明了显著的性能提升。
Mar, 2022
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
Apr, 2021
本文提出一种基于多模态预训练的语言条件检测框架,能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”,解决多数据集训练中的技术难题,并成功应用于超过 35 个目标检测任务,取得最新成果。
Sep, 2022
基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像 - 文本对中学习,我们的方法能够利用对比损失学习到新出现的对象 - 语义线索,在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
该研究提出了一种新的描述条件(DesCo)学习范式,利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力,从而在零样本检测环境下,超越了先前的最先进模型,以提高物体识别的准确性。
Jun, 2023
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文提出了 F-VLM,一种基于 Frozen Vision and Language Models 的简单开放式识别目标检测方法,通过消除知识蒸馏和定制化预训练,简化了现有的多阶段训练管道,实验结果表明 F-VLM 实现了优异的可扩展性,对于 LVIS open-vocabulary detection benchmark 实现了 + 6.5 mask AP 的改进,并在 COCO 开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。
Sep, 2022
使用开放词汇的目标检测方法,通过利用预训练的视觉语言模型的零样本分类能力,直接对所有可能的新类别的建议进行分类,而不需要额外的注释或数据集。
Oct, 2023
该研究提出了一种名为 Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023