具有提示的模块化和参数高效的多模态融合

ACLMar, 2022

具有提示的模块化和参数高效的多模态融合

Modular and Parameter-Efficient Multimodal Fusion with Prompting

Sheng Liang, Mengjie Zhao, Hinrich Schütze

TL;DR本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。

Abstract

Recent research has made impressive progress in large-scale multimodal pre-training. In the context of the rapid growth of model size, it is necessary to seek efficient and flexible methods other than finetuning. In this paper, we propose to use prompt vectors to align the modalities.

multimodal pre-training prompt vectors modalities alignment parameter-efficient low-resource settings

发现论文，激发创造

通过交互提示实现高效多模态融合

该论文提出了一种高效灵活的多模式融合方法 PMF，可用于融合单模式预训练变压器。在此基础上，还将香草提示解开为三种类型，以学习多模态学习的不同优化目标，并且仅在单模态变压器的深层次上添加提示向量，从而显著减少了训练的内存使用

Apr, 2023

朝向健壮的多模式提示：缺失模态

使用具体的提示设计来提高多模态学习的性能和鲁棒性，并减少提示的数量。

Dec, 2023

多模态视觉识别中缺失模态的多模态提示

本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Mar, 2023

基于多模态概率融合激励的少样本多模态情感分析

本研究提出多模态概率融合提示方法，结合语言模型提示和多模态提示提供不同的提示信号，以提高少样本情感分析中的准确性。实验结果表明该方法在三个数据集上均有效。

Nov, 2022

多模态融合的条件提示调节

利用一种多模态融合方法，通过一个模态的表示来引导另一个模态的参数高效提示，从而将预训练知识有效转移至多模态任务中。

Nov, 2023

跨模态调整多模式令牌级提示对齐

利用最优传输的多模式令牌级调优框架，发现了多种视觉概念，实现了精确的语义对齐，优于传统方法。

Sep, 2023

多模态追踪的提示

本研究提出一种基于 prompt 范式的多模态 prompt 跟踪器 ProTrack，通过最大程度地利用 RGB 跟踪器预训练的跟踪能力，仅通过修改输入即可实现高性能的多模态跟踪，对 5 个基准数据集进行的大量实验证明了 ProTrack 的有效性。

Jul, 2022

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

模式逼近生成优秀的视觉语言提示

本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

May, 2023

在多模态股票交易量预测中融入预训练模型引导

通过 ProMUSE 模型以及预训练语言模型和交叉模态对比对齐的方法，该研究提出了一种多模态股票交易量变动预测的解决方案，旨在利用金融新闻的通用知识建模，并通过实验证明了其在效果上的优越性。

Sep, 2023