COLINGMar, 2024

多模态语义理解的提示专家混合

TL;DR在人工智能领域,深度多模态语义理解已经引起了越来越多的关注,挑战主要集中在收集和标注高质量的多模态数据,突显了几次学习的重要性。本文针对这一背景下的两个关键任务:少样本多模态讽刺检测(MSD)和多模态情感分析(MSA),提出了一种基于统一视觉语言模型(VLM)的创新多模态软提示框架:MoPE-BAF(Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion)。我们设计了三个软提示专家:文本提示和图像提示,以提取模态特定特征,丰富单模态表示;同时,提出了多模态交互的统一提示。此外,我们将 Transformer 层重组为多个块,并在相邻块之间引入跨模态提示注意力,以平稳实现从单模态表示到多模态融合的过渡。在少样本设置下的 MSD 和 MSA 数据集上,我们提出的模型不仅仅在参数(150M)上超越了 8.2B 模型 InstructBLIP,而且在 VLMs 或任务特定方法中也大大优于其他广泛使用的提示方法。