Nov, 2023

Griffon:利用大型语言模型明示任何粒度下的所有对象位置

TL;DR基于大规模视觉语言模型的对象感知与定位能力,我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon,该模型在细粒度的 RefCOCO 系列上达到了最先进的性能,并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。