CVPRJun, 2024

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

TL;DR本报告介绍了一种增强的方法来解决基础性少样本物体检测任务,利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题,本研究提出了 VLM + 框架,把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式,根据 VLM 的预测和给定的注释,选取与每个类别最大 IoU 匹配的最佳参考表达式,并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。