视觉提示的多模式跟踪
本研究提出一种基于 prompt 范式的多模态 prompt 跟踪器 ProTrack,通过最大程度地利用 RGB 跟踪器预训练的跟踪能力,仅通过修改输入即可实现高性能的多模态跟踪,对 5 个基准数据集进行的大量实验证明了 ProTrack 的有效性。
Jul, 2022
基于可见光和热红外图像融合的目标跟踪,称为 RGB-T 跟踪,在计算成本较低的情况下如何实现两种模态信息更全面的融合一直是研究人员探索的问题。最近,随着计算机视觉中即时学习的兴起,我们可以更好地将知识从视觉大模型转移到下游任务中。考虑到可见光和热红外模态之间的强互补性,我们提出了一种基于两种模态之间相互即时学习的跟踪架构。我们还设计了一个轻量级的即时学习器,在骨干网络的每一层中嵌入了二维注意机制,以低计算成本将信息从一种模态转移到另一种模态中。广泛的实验证明,我们提出的跟踪架构既有效又高效,在保持高运行速度的同时实现了最先进的性能。
Aug, 2023
提出了 M3PT,一种新型的 RGB-T 提示追踪方法,利用中融合和多模和多阶段的视觉提示来解决 RGB-T 追踪中的性能和效率之间的权衡、训练数据的稀缺性等挑战,并在四个具有挑战性的基准测试中超过了现有方法,同时达到了 46.1 fps 的推理速度。
Mar, 2024
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
Apr, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在 RGB 图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了 ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers 中处理不同的模态缺失情况,同时只需要少于 1% 的可学习参数。实验结果表明,该框架有效地提高了在各种模态缺失情况下的性能。
Mar, 2023
最近,基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而,由于各种成像传感器的缺失模态,从真实世界中收集的多模态人脸数据往往是不完整的。在本文中,我们提出了 “视觉提示灵活多模态人脸反欺诈” (VP-FAS)的方法,通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能,同时减轻了对重训练的要求。
Jul, 2023
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024