Apr, 2024

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

TL;DR使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力,并在三个基准测试上表现出显著的改进。