傅里叶引导的模态不完整场景分割

Jan, 2024

傅里叶引导的模态不完整场景分割

Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation

Ruiping Liu, Jiaming Zhang, Kunyu Peng, Yufan Chen, Ke Cao...

TL;DR通过引入 Missing-aware Modal Switch (MMS) 策略和 Fourier Prompt Tuning (FPT) 方法，该研究提出了一种改进的多模态分割方法，提高了在多模态感知系统中处理模态不完整性的能力。实验证明，在模态缺失情况下，该方法相比现有方法提高了 5.84% 的 mIoU 指标。

Abstract

Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in →

multi-modal segmentation modality incompleteness missing-aware modal switch fourier prompt tuning modality missing

发现论文，激发创造

多模态视觉识别中缺失模态的多模态提示

本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Mar, 2023

通过可逆提示学习和高质量数据模拟的遗失模态 RGBT 跟踪

在当前 RGBT 跟踪研究中，主要关注完整模态的场景，忽视了现实场景中模态缺失的挑战。本文综合研究了模态缺失挑战对 RGBT 跟踪的影响，并提出了一种新的可逆提示学习方法，将保留内容的提示集成到训练充分的跟踪模型中，以适应各种模态缺失场景，用于模态缺失的 RGBT 跟踪。

Dec, 2023

半监督多模式语义分割中的缺失模态稳健性

提出一种简单且高效的多模态融合机制：线性融合（Linear Fusion），通过半监督学习的方式提高了多模态语义分割的性能，并使模型对现实世界中缺失模态的情况更加健壮。

Apr, 2023

遥感数据融合的不完全多模态学习

本文提出了一种新颖的不完整多模态学习模型，结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号，利用重构和对比损失来促进预训练中的融合，能在处理数据不完整输入时达到当前最佳性能水平。

Apr, 2023

探索多模式自为视角数据集中的缺失模态

本研究通过引入 Missing Modality Token（MMT）的新概念，综合分析了缺失模态对自我中心动作识别的影响，并证明了 MMT 方法在处理缺失模态时的优越性。

Jan, 2024

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

朝向健壮的多模式提示：缺失模态

使用具体的提示设计来提高多模态学习的性能和鲁棒性，并减少提示的数量。

Dec, 2023

处理所有阶段缺失的形式：朝着具有健壮重建和个性化能力的通用模型

提出了一种具有模态重建和模型个性化的健壮的通用模型，能够在训练和测试阶段有效地处理缺失的模态，通过多模态掩码自编码器重构缺失的模态和掩码补丁，利用创新的分布近似机制充分利用完整和不完整的数据，提出了基于 CLIP 的超网络来个性化模型参数，能够适应不同的缺失模态场景，并在两个脑肿瘤分割基准上得到广泛验证，在不同缺失比例的全阶段缺失模态设置下始终超过先前最先进的方法，代码将可用。

Jun, 2024

多模态变换器用于材料分割

提出了一种新颖的融合策略，能够有效地融合来自四种不同模态（RGB、AoLP、DoLP 和 NIR）的信息，结合提出的融合策略，使用新模型 Multi-Modal Segmentation Transformer（MMSFormer）在 MCubeS 数据集上实现了 52.05% 的 mIoU，并且在检测砾石（+10.4%）和人物（+9.1%）类别方面提供了显著的改进。

Sep, 2023

缺失模态插值的统一多模态图像合成

该论文提出了一种新的统一的多模式图像综合方法，包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态，并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性，实验结果表明该方法在处理多种综合任务时具有优越的性能。

Apr, 2023