朝向健壮的多模式提示:缺失模态
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers 中处理不同的模态缺失情况,同时只需要少于 1% 的可学习参数。实验结果表明,该框架有效地提高了在各种模态缺失情况下的性能。
Mar, 2023
最近,基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而,由于各种成像传感器的缺失模态,从真实世界中收集的多模态人脸数据往往是不完整的。在本文中,我们提出了 “视觉提示灵活多模态人脸反欺诈” (VP-FAS)的方法,通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能,同时减轻了对重训练的要求。
Jul, 2023
本文提出使用提示向量来对齐模态,从而实现在低资源情况下,与其他多模态融合方法相当的性能,并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。
Mar, 2022
提出了一种自适应多模式提示学习方法,通过同时考虑样本内外的泛化性和掩盖无意义的图像区域来解决当前提示学习方法存在的局限性,实验结果表明该方法在不同下游任务中优于现有方法。
Nov, 2023
本研究提出了分区多模态提示方法(PMPO),将软提示从单个可学习提示扩展到多个提示,以捕获视觉表示的分层上下文深度。此外,我们结合手动设计的模板和可学习的多提示,以提高方法的泛化能力,并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。
May, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023
跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt,一种多任务框架,可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块,我们能够有效地编码跨模态提示。通过集成 Transformer 模型,增强了对不同模态间全局特征的提取,实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。
Oct, 2023
本研究提出一种基于 prompt 范式的多模态 prompt 跟踪器 ProTrack,通过最大程度地利用 RGB 跟踪器预训练的跟踪能力,仅通过修改输入即可实现高性能的多模态跟踪,对 5 个基准数据集进行的大量实验证明了 ProTrack 的有效性。
Jul, 2022
本研究提出多模态概率融合提示方法,结合语言模型提示和多模态提示提供不同的提示信号,以提高少样本情感分析中的准确性。实验结果表明该方法在三个数据集上均有效。
Nov, 2022