ICLRSep, 2022

F-VLM:基于冻结视觉和语言模型的开放词汇物体检测

TL;DR本文提出了 F-VLM,一种基于 Frozen Vision and Language Models 的简单开放式识别目标检测方法,通过消除知识蒸馏和定制化预训练,简化了现有的多阶段训练管道,实验结果表明 F-VLM 实现了优异的可扩展性,对于 LVIS open-vocabulary detection benchmark 实现了 + 6.5 mask AP 的改进,并在 COCO 开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。