Mar, 2024

TaskCLIP:扩展大型视觉语言模型以用于任务导向的物体检测

TL;DR通过使用大规模视觉和语言模型(VLM)作为模型骨干,以及基于 Transformer 的校准器,我们提出了 TaskCLIP,一个两阶段的设计用于任务导向的目标检测,实验结果表明我们的方法优于当前最先进的 TOIST 模型,并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。