多模态融合的条件提示调节

Nov, 2023

Conditional Prompt Tuning for Multimodal Fusion

Ruixiang Jiang, Lingbo Liu, Changwen Chen

TL;DR利用一种多模态融合方法，通过一个模态的表示来引导另一个模态的参数高效提示，从而将预训练知识有效转移至多模态任务中。

Abstract

We show that the representation of one modality can effectively guide the prompting of another modality for parameter-efficient multimodal fusion

multimodal fusion prompting representation mope pretrained knowledge

发现论文，激发创造

MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合

通过分解原始提示，基于混合提示专家（MoPE）技术实现了适应性捕获数据集级别和实例级别特征，并借助多模态配对先验在每个实例上选择最有效的提示语，从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项，导致不同专家专注于不同概念，实现了可解释的软提示。通过对三个多模态数据集进行广泛实验，证明了我们的方法在性能上达到了最先进的结果，甚至超过了微调，并且仅需占用可训练参数的 0.8%。

Mar, 2024

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

通过交互提示实现高效多模态融合

该论文提出了一种高效灵活的多模式融合方法 PMF，可用于融合单模式预训练变压器。在此基础上，还将香草提示解开为三种类型，以学习多模态学习的不同优化目标，并且仅在单模态变压器的深层次上添加提示向量，从而显著减少了训练的内存使用

Apr, 2023

逐步多模态条件提示调整

通过迭代利用图像和当前的编码信息，我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整（ProMPT），通过多模态提示的方式使视觉 - 语言特征逐步对齐，从而实现从粗糙到准确的分类。在所有设置中，广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。

Apr, 2024

具有提示的模块化和参数高效的多模态融合

本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。

Mar, 2022

多任务提示调整实现参数效率转移学习

我们提出了多任务提示调整（MPT）方法，该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示，然后学习该共享提示的乘性低秩更新，以高效地将其适应每个下游目标任务。在 23 个自然语言处理数据集上进行的广泛实验表明，我们的方法在某些情况下优于最先进的方法，包括完全微调基线方法，尽管只有 0.035％的特定于任务的参数被调整。

Mar, 2023

多模态语义理解的提示专家混合

在人工智能领域，深度多模态语义理解已经引起了越来越多的关注，挑战主要集中在收集和标注高质量的多模态数据，突显了几次学习的重要性。本文针对这一背景下的两个关键任务：少样本多模态讽刺检测（MSD）和多模态情感分析（MSA），提出了一种基于统一视觉语言模型（VLM）的创新多模态软提示框架：MoPE-BAF（Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion）。我们设计了三个软提示专家：文本提示和图像提示，以提取模态特定特征，丰富单模态表示；同时，提出了多模态交互的统一提示。此外，我们将 Transformer 层重组为多个块，并在相邻块之间引入跨模态提示注意力，以平稳实现从单模态表示到多模态融合的过渡。在少样本设置下的 MSD 和 MSA 数据集上，我们提出的模型不仅仅在参数（150M）上超越了 8.2B 模型 InstructBLIP，而且在 VLMs 或任务特定方法中也大大优于其他广泛使用的提示方法。

Mar, 2024

朝向健壮的多模式提示：缺失模态

使用具体的提示设计来提高多模态学习的性能和鲁棒性，并减少提示的数量。

Dec, 2023

多模态视觉识别中缺失模态的多模态提示

本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Mar, 2023

理解预训练的视觉语言模型的多模态提示

通过对多模态提示的直接分析，我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能，从而提出了偏差调优的方法，并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。

Dec, 2023