Feb, 2024

定位插入:解锁 VLM 中物体定位能力

TL;DR本研究旨在通过保持基于标题的 Vision-Language Model 的权重不变以及不使用任何受监督的检测数据的方法来解决目标定位的挑战,并引入一个可学习的空间提示模块(PIN),通过在冻结的 VLM 内滑动包含一小组参数的 PIN 模块来实现目标定位能力,实验结果在包括 Pascal VOC、COCO、LVIS 以及绘画或卡通等各种图像上表现出强大的零样本定位能力。