多模态语义理解的提示专家混合

COLINGMar, 2024

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding

Zichen Wu, HsiuYuan Huang, Fanyi Qu, Yunfang Wu

TL;DR在人工智能领域，深度多模态语义理解已经引起了越来越多的关注，挑战主要集中在收集和标注高质量的多模态数据，突显了几次学习的重要性。本文针对这一背景下的两个关键任务：少样本多模态讽刺检测（MSD）和多模态情感分析（MSA），提出了一种基于统一视觉语言模型（VLM）的创新多模态软提示框架：MoPE-BAF（Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion）。我们设计了三个软提示专家：文本提示和图像提示，以提取模态特定特征，丰富单模态表示；同时，提出了多模态交互的统一提示。此外，我们将 Transformer 层重组为多个块，并在相邻块之间引入跨模态提示注意力，以平稳实现从单模态表示到多模态融合的过渡。在少样本设置下的 MSD 和 MSA 数据集上，我们提出的模型不仅仅在参数（150M）上超越了 8.2B 模型 InstructBLIP，而且在 VLMs 或任务特定方法中也大大优于其他广泛使用的提示方法。

Abstract

deep multimodal semantic understanding that goes beyond the mere superficial content relation mining has received increasing attention in the realm of artificial intelligence. The challenges of collecting and annotating high-quality multi-modal data have underscored the significance of

deep multimodal semantic understanding few-shot learning multi-modal sarcasm detection multi-modal sentiment analysis mixture-of-prompt-experts with block-aware prompt fusion

发现论文，激发创造

基于句法的混合提示模型用于少样本多模态情感分析

本文提出了一种混合模式的近似零样本多模态情感分析方法，结合手工提示和可学习提示，利用注意力机制优化提示编码器，在句子水平和方面水平数据集上取得了显著的性能优势。

Jun, 2023

MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合

通过分解原始提示，基于混合提示专家（MoPE）技术实现了适应性捕获数据集级别和实例级别特征，并借助多模态配对先验在每个实例上选择最有效的提示语，从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项，导致不同专家专注于不同概念，实现了可解释的软提示。通过对三个多模态数据集进行广泛实验，证明了我们的方法在性能上达到了最先进的结果，甚至超过了微调，并且仅需占用可训练参数的 0.8%。

Mar, 2024

基于多模态概率融合激励的少样本多模态情感分析

本研究提出多模态概率融合提示方法，结合语言模型提示和多模态提示提供不同的提示信号，以提高少样本情感分析中的准确性。实验结果表明该方法在三个数据集上均有效。

Nov, 2022

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

混合提示专家用于可推广和可解释的问答

该研究提出采用多专家模型集成的方式，使用不同的预测方法来解决传统单一模型难以泛化的问题，以在回答来自各种领域的问题时更好地表现。

May, 2023

多模态基于能量的方面情感分析新模型机制

多模态情感分析研究中，提出了一种称为 DQPSA 的新框架，其包含了 Prompt 作为 Dual Query（PDQ）模块和基于能量的 Pairwise Expert（EPE）模块，通过提取 Prompt 感知的视觉信息、加强视觉信息与分析目标之间的相关性以及模型边界配对，实现了在三个广泛使用的基准测试中超过以往方法并达到了最新的最佳性能。

Dec, 2023

一个提示不够：混合专家提示的自动构建

使用 Mixture-of-Expert 范例，将问题空间划分为子区域，为每个区域构建专业专家，通过演示集和一条指令来实现任务的智能引导。

Jun, 2024

多模态融合的条件提示调节

利用一种多模态融合方法，通过一个模态的表示来引导另一个模态的参数高效提示，从而将预训练知识有效转移至多模态任务中。

Nov, 2023

相似度感知的多模态提示学习用于假新闻检测

本篇研究提出了一个基于相似性感知的多模态提示学习框架 (SAMPLE) 用于检测假新闻，通过三种提示模板和一种软性描述器分析，并采用自适应融合方法来减少因不相关的交叉模态特征注入噪音，实验表明相较于先前方法，SAMPLE 在两个基准多模态数据集中的 F1 值和准确性均有所提高。另外，SAMPLE 不论在少量数据或是数据丰富的情况下都优于其他方法。

Apr, 2023