ICCVSep, 2023

面向视觉 - 语言模型的分布感知提示调整

TL;DR通过学习大规模数据的知识,预训练的视觉 - 语言模型(VLMs)在各种下游任务中表现出色。本文提出了分布感知的提示微调(DAPT),通过对齐两种模态之间的特征空间,并对每种模态的嵌入进行良好排列,显著改善了模型的泛化能力。