Sep, 2022

F-VLM:基于冻结视觉和语言模型的开放词汇物体检测

TL;DR本文提出了F-VLM,一种基于Frozen Vision and Language Models的简单开放式识别目标检测方法,通过消除知识蒸馏和定制化预训练,简化了现有的多阶段训练管道,实验结果表明 F-VLM 实现了优异的可扩展性,对于LVIS open-vocabulary detection benchmark实现了+6.5 mask AP的改进,并在COCO开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。