视觉提示的多模式跟踪

CVPRMar, 2023

Visual Prompt Multi-Modal Tracking

Jiawen Zhu, Simiao Lai, Xin Chen, Dong Wang, Huchuan Lu

TL;DR本文提出了一种基于视觉提示学习的多模态跟踪方法，通过学习模态相关的提示来适应预训练好的基础模型，在 RGB + 深度、RGB + 热等多个跟踪任务中表现优秀，实现了参数效率和最先进性的平衡。

Abstract

Visible-modal object tracking gives rise to a series of downstream multi-modal tracking tributaries. To inherit the powerful representations of the foundation model, a natural modus operandi for multi-modal tracking

multi-modal tracking prompt learning rgb-based model visual prompt multi-modal tracking state-of-the-art performance

发现论文，激发创造

多模态追踪的提示

本研究提出一种基于 prompt 范式的多模态 prompt 跟踪器 ProTrack，通过最大程度地利用 RGB 跟踪器预训练的跟踪能力，仅通过修改输入即可实现高性能的多模态跟踪，对 5 个基准数据集进行的大量实验证明了 ProTrack 的有效性。

Jul, 2022

基于多模态互相提示学习的 RGB-T 跟踪

基于可见光和热红外图像融合的目标跟踪，称为 RGB-T 跟踪，在计算成本较低的情况下如何实现两种模态信息更全面的融合一直是研究人员探索的问题。最近，随着计算机视觉中即时学习的兴起，我们可以更好地将知识从视觉大模型转移到下游任务中。考虑到可见光和热红外模态之间的强互补性，我们提出了一种基于两种模态之间相互即时学习的跟踪架构。我们还设计了一个轻量级的即时学习器，在骨干网络的每一层中嵌入了二维注意机制，以低计算成本将信息从一种模态转移到另一种模态中。广泛的实验证明，我们提出的跟踪架构既有效又高效，在保持高运行速度的同时实现了最先进的性能。

Aug, 2023

鲁棒的 RGB-T 追踪中的中间融合和多阶段、多形式提示

提出了 M3PT，一种新型的 RGB-T 提示追踪方法，利用中融合和多模和多阶段的视觉提示来解决 RGB-T 追踪中的性能和效率之间的权衡、训练数据的稀缺性等挑战，并在四个具有挑战性的基准测试中超过了现有方法，同时达到了 46.1 fps 的推理速度。

Mar, 2024

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

多模态追踪的双向适配器

通过引入多模态图像以弥补单一成像传感器的限制，我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型，通过交互式互补多模态信息，实现了优良的跟踪性能。

Dec, 2023

构建大型多模态模型理解任意视觉提示

该研究介绍了一种新颖的多模态模型，可以解码任意视觉提示，通过在 RGB 图像上直接叠加视觉标记的方式，实现了对特定区域的理解，在区域理解任务上取得了最先进的性能，并提出了 ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。

Dec, 2023

理解预训练的视觉语言模型的多模态提示

通过对多模态提示的直接分析，我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能，从而提出了偏差调优的方法，并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。

Dec, 2023

多模态视觉识别中缺失模态的多模态提示

本文提出一种使用 prompt learning 的多模态学习框架，从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts，可插入到多模态 transformers 中处理不同的模态缺失情况，同时只需要少于 1% 的可学习参数。实验结果表明，该框架有效地提高了在各种模态缺失情况下的性能。

Mar, 2023

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024