傅里叶引导的模态不完整场景分割
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers 中处理不同的模态缺失情况,同时只需要少于 1% 的可学习参数。实验结果表明,该框架有效地提高了在各种模态缺失情况下的性能。
Mar, 2023
在当前 RGBT 跟踪研究中,主要关注完整模态的场景,忽视了现实场景中模态缺失的挑战。本文综合研究了模态缺失挑战对 RGBT 跟踪的影响,并提出了一种新的可逆提示学习方法,将保留内容的提示集成到训练充分的跟踪模型中,以适应各种模态缺失场景,用于模态缺失的 RGBT 跟踪。
Dec, 2023
提出一种简单且高效的多模态融合机制:线性融合(Linear Fusion),通过半监督学习的方式提高了多模态语义分割的性能,并使模型对现实世界中缺失模态的情况更加健壮。
Apr, 2023
本文提出了一种新颖的不完整多模态学习模型,结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号,利用重构和对比损失来促进预训练中的融合,能在处理数据不完整输入时达到当前最佳性能水平。
Apr, 2023
本研究通过引入 Missing Modality Token(MMT)的新概念,综合分析了缺失模态对自我中心动作识别的影响,并证明了 MMT 方法在处理缺失模态时的优越性。
Jan, 2024
最近,基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而,由于各种成像传感器的缺失模态,从真实世界中收集的多模态人脸数据往往是不完整的。在本文中,我们提出了 “视觉提示灵活多模态人脸反欺诈” (VP-FAS)的方法,通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能,同时减轻了对重训练的要求。
Jul, 2023
提出了一种具有模态重建和模型个性化的健壮的通用模型,能够在训练和测试阶段有效地处理缺失的模态,通过多模态掩码自编码器重构缺失的模态和掩码补丁,利用创新的分布近似机制充分利用完整和不完整的数据,提出了基于 CLIP 的超网络来个性化模型参数,能够适应不同的缺失模态场景,并在两个脑肿瘤分割基准上得到广泛验证,在不同缺失比例的全阶段缺失模态设置下始终超过先前最先进的方法,代码将可用。
Jun, 2024
提出了一种新颖的融合策略,能够有效地融合来自四种不同模态(RGB、AoLP、DoLP 和 NIR)的信息,结合提出的融合策略,使用新模型 Multi-Modal Segmentation Transformer(MMSFormer)在 MCubeS 数据集上实现了 52.05% 的 mIoU,并且在检测砾石(+10.4%)和人物(+9.1%)类别方面提供了显著的改进。
Sep, 2023
该论文提出了一种新的统一的多模式图像综合方法,包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态,并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性,实验结果表明该方法在处理多种综合任务时具有优越的性能。
Apr, 2023