EMNLPDec, 2023

APoLLo:统一的视觉语言模型适配器与提示学习

TL;DRAPoLLo 是一种统一的多模态方法,结合了 Adapter 和 Prompt 学习用于增强 Vision-Language 模型在 few-shot 环境下的泛化能力,通过引入可训练的交叉注意力适配器层和视觉与语言编码器来加强两种模态之间的对齐,并通过确保编码器分支之间的一致性来防止过拟合,在新颖类别的 10 个不同图像识别数据集上,APoLLo 相对于 MaLPe (SOTA) 实现了高达 6.03% 的相对增益。