通过交互提示实现高效多模态融合

CVPRApr, 2023

通过交互提示实现高效多模态融合

Efficient Multimodal Fusion via Interactive Prompting

Yaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang

TL;DR该论文提出了一种高效灵活的多模式融合方法 PMF，可用于融合单模式预训练变压器。在此基础上，还将香草提示解开为三种类型，以学习多模态学习的不同优化目标，并且仅在单模态变压器的深层次上添加提示向量，从而显著减少了训练的内存使用

Abstract

Large-scale pre-training has brought unimodal fields such as computer vision and natural language processing to a new era. Following this trend, the size of multi-modal learning models constantly increases, leading to an urgent need to reduce the massive computational cost of finetunin

pre-training multimodal learning transformers pmf memory usage

发现论文，激发创造

具有提示的模块化和参数高效的多模态融合

本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。

Mar, 2022

多模态融合的条件提示调节

利用一种多模态融合方法，通过一个模态的表示来引导另一个模态的参数高效提示，从而将预训练知识有效转移至多模态任务中。

Nov, 2023

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合

通过分解原始提示，基于混合提示专家（MoPE）技术实现了适应性捕获数据集级别和实例级别特征，并借助多模态配对先验在每个实例上选择最有效的提示语，从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项，导致不同专家专注于不同概念，实现了可解释的软提示。通过对三个多模态数据集进行广泛实验，证明了我们的方法在性能上达到了最先进的结果，甚至超过了微调，并且仅需占用可训练参数的 0.8%。

Mar, 2024

模式逼近生成优秀的视觉语言提示

本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

May, 2023

m3P: 走向多模多语翻译与多模提示

通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法，该方法利用多模态提示来指导多模态多语言神经机器翻译，在低资源和大规模多语言场景下改善了翻译质量。

Mar, 2024

基于多模态概率融合激励的少样本多模态情感分析

本研究提出多模态概率融合提示方法，结合语言模型提示和多模态提示提供不同的提示信号，以提高少样本情感分析中的准确性。实验结果表明该方法在三个数据集上均有效。

Nov, 2022

多任务提示调整实现参数效率转移学习

我们提出了多任务提示调整（MPT）方法，该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示，然后学习该共享提示的乘性低秩更新，以高效地将其适应每个下游目标任务。在 23 个自然语言处理数据集上进行的广泛实验表明，我们的方法在某些情况下优于最先进的方法，包括完全微调基线方法，尽管只有 0.035％的特定于任务的参数被调整。

Mar, 2023

POUF: 面向提示的无监督微调大规模预训练模型

本研究提出一种无监督的精调框架，用于快速和直接地向未标记的目标数据进行深度学习模型的预训练，并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。

Apr, 2023