May, 2024

改进提示调整中的文本语义是否可以提高VLM的泛化能力?

TL;DR通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。