多模态视觉识别中缺失模态的多模态提示

CVPRMar, 2023

多模态视觉识别中缺失模态的多模态提示

Multimodal Prompting with Missing Modalities for Visual Recognition

Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee

TL;DR本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Abstract

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy →

multimodal learning visual recognition missing modality prompt learning transformer models

发现论文，激发创造

朝向健壮的多模式提示：缺失模态

使用具体的提示设计来提高多模态学习的性能和鲁棒性，并减少提示的数量。

Dec, 2023

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

通过可逆提示学习和高质量数据模拟的遗失模态 RGBT 跟踪

在当前 RGBT 跟踪研究中，主要关注完整模态的场景，忽视了现实场景中模态缺失的挑战。本文综合研究了模态缺失挑战对 RGBT 跟踪的影响，并提出了一种新的可逆提示学习方法，将保留内容的提示集成到训练充分的跟踪模型中，以适应各种模态缺失场景，用于模态缺失的 RGBT 跟踪。

Dec, 2023

具有提示的模块化和参数高效的多模态融合

本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。

Mar, 2022

面向音视频表情识别的处理缺失模态的训练策略

研究了当其中一个模态缺失时，自动音视频表情识别中 transformer 模型的表现，通过消融实验和随机消融训练数据的策略，提高了模型的泛化性能。

Oct, 2020

自适应多模态提示学习

提出了一种自适应多模式提示学习方法，通过同时考虑样本内外的泛化性和掩盖无意义的图像区域来解决当前提示学习方法存在的局限性，实验结果表明该方法在不同下游任务中优于现有方法。

Nov, 2023

MedPrompt：跨模态提示多任务医学影像翻译

跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt，一种多任务框架，可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块，我们能够有效地编码跨模态提示。通过集成 Transformer 模型，增强了对不同模态间全局特征的提取，实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。

Oct, 2023

使用提示进行多模态视觉理解，实现图像语义信息的解耦

通过对多模式图像使用提示来提高图像的语义理解能力，将视觉与语言处理相结合，以生成更准确的预测和识别图像，并通过提供更强大的图像表示来改进单模态模型，这是一个有前途的研究领域。

May, 2023

借宝于邻：针对多模态学习的上下文学习在缺失模态和数据稀缺情况下的应用

通过使用检索增强上下文学习来解决多模态机器学习中缺失模态和样本有限的问题，提高分类模型性能和样本效率。

Mar, 2024