Sep, 2024

LLM-wrapper:黑盒语义感知适应视觉语言基础模型

TL;DR本研究解决了视觉语言模型(VLMs)在零-shot能力上的局限性,尤其是与专用或微调模型相比的不足。提出的LLM-wrapper通过利用大型语言模型(LLMs)以黑盒方式适应VLMs,从而在复杂的开放词汇任务上展现出明显的效果提升,业绩在与传统微调方法对比中取得竞争力的结果。