本研究提出了一种名为明确视觉提示(EVP)的新型视觉提示模型,通过引入预先训练和提示微调协议,同时从冻结的补丁嵌入和输入的高频成分中进行显式视觉内容的关注,能够有效地解决图像分割、失焦检测、阴影区域和隐藏对象等低级结构检测问题。与领域特定的解决方案相比,EVP 在所有这些问题上都表现出良好的统一性能、更高的检测准确率和更少的可调参数量。
Mar, 2023
该论文提出了一个基于预训练及显式视觉提示(EVP)的统一框架,用于多个前景分割任务,其性能优于全调参及其他节约参数细调的方法,并展示了该方法在不同架构、预训练权重和任务上的可扩展性。
May, 2023
通过学习二维提示令牌映射来进行图像分类的细粒度提示,以模型化输入图像的空间关系和提高有效提示能力。
Dec, 2023
本文提出了一种基于视觉提示学习的多模态跟踪方法,通过学习模态相关的提示来适应预训练好的基础模型,在 RGB + 深度、RGB + 热等多个跟踪任务中表现优秀,实现了参数效率和最先进性的平衡。
本文介绍了一种通用的视觉上下文提示框架,以支持涂鸦、方框和点等各种提示类型,并进一步改进以支持任意数量的上下文。通过在 COCO 和 SA-1B 上进行联合训练,我们的模型在 COCO 上达到 57.7 PQ,在 ADE20K 上达到 23.2 PQ。
Nov, 2023
帧质量下降是视频理解领域中的主要挑战之一。为了弥补由于帧质量下降而引起的信息损失,最近的方法利用基于 Transformer 的集成模块来获得时空信息。然而,这些集成模块过于复杂和繁重。在本文中,我们提出了一个简洁且统一的框架,称为时空提示网络 (STPN)。它通过动态调整骨干网络中的输入特征,可以高效地提取稳健准确的视频特征。此外,STPN 易于推广到各种视频任务,因为它不包含任务特定的模块。没有花哨的设计,STPN 在三个广泛使用的数据集上取得了最先进的性能,涵盖了不同的视频理解任务,例如用于视频对象检测的 ImageNetVID,用于视频实例分割的 YouTubeVIS 以及用于视觉目标跟踪的 GOT-10k。
Feb, 2024
通过语言引导的视觉提示方法,我们使视觉语言模型的视觉编码器适应下游任务,从而提高适应性和泛化性能。
通过引入一种名为语言导向的时空提示学习(LSTP)的新方法,利用时间信息高效提取相关视频内容,并巧妙捕捉视觉和文本元素之间的复杂空间关系,从而显著提高计算效率、时间理解和时空对齐,通过两个挑战性任务的实证评估,证明了我们提出的 LSTP 范型在视频问答和视频中的时间问题定位方面具有卓越的性能、速度和多功能性。
长期空间提示调整 (LSPT) 是一种革命性的视觉表示学习方法,通过引入长期的门控提示,巧妙地结合了时间编码和空间编码,提高了视觉类别的区分和识别能力,同时在 5 个 FGVC 和 19 个 VTAB-1K 基准测试中展示了优于其他方法的性能。
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信息相关任务的附加知识。通过在语言模型的前馈网络(FFN)中加入视觉提示与权重的连接,MemVP 方法大大减少了微调视觉语言模型的训练时间和推理延迟,并且在各种视觉语言任务和语言模型上的实验证明其性能超越了先前的 PEFT 方法。
May, 2024