AAAIDec, 2023

基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型

TL;DR本文提出了一种新的建模框架,将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程,其中,投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中,适配器调谐视觉 - 语言模型需要处理异种图,为此,我们提出了一种新的适配器架构 $p$-adapter,在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验,包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。