May, 2024

SEP:自我增强的视觉语言模型提示调整

TL;DR基于 Context Optimization (CoOp) 的 Prompt tuning 方式可通过推断附加可学习的提示符令牌来有效地调整视觉 - 语言模型(VLMs)以适应下游任务。然而,这些令牌由于与预训练的令牌无关且无法捕捉特定于输入的知识,如类别感知的文本或实例感知的视觉知识,因此没有足够的区分性。因此,我们提出了一种名为 Self-Enhanced Prompt Tuning (SEP) 的新方法,通过从相应的自预训练的令牌中调整每个编码器层的可学习提示符令牌,从而明确地将区分性先验知识融入文本级别和视觉级别的嵌入中以增强性能。SEP 的自增强令牌不仅增强了区分性,还减轻了未见域中的领域转移,提高了泛化能力。在实践中,SEP 为每个输入数据在文本 / 视觉编码器的每个层级上选择几个代表性令牌。随后,引入了一个 Token Fusion Module (TFM),通过使用交叉注意机制将这些代表性令牌与可学习令牌合并,生成一个自增强令牌。这个自增强令牌随后与所有预训练令牌连接,作为后续编码器层的输入,生成相关的嵌入。通过在各种基准和任务上进行全面评估,证实了 SEP 在提示调整中的有效性。