Oct, 2024

GLOV:作为隐式优化器的指导大型语言模型用于视觉语言模型

TL;DR本研究提出了一种新方法GLOV,使大型语言模型(LMs)能够作为视觉-语言模型(VLMs)的隐式优化器,以提升下游视觉任务的性能。通过对下游任务描述进行meta提示,GLOV将合适的VLM提示进行排序,从而优化模型输出,实验证明该方法在多个数据集上可显著提升视觉任务的识别性能,表现出高达57.5%的提升潜力。