SA$^2$VP:空间对齐和自适应视觉提示
本论文讨论了思考视觉提示、标签映射和迁移学习等一系列问题,提出了ILM-VP和CLIP-VP等新的提示方法,并在多个数据集上实现了进一步提升精度的效果。
Nov, 2022
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在12个流行的分类数据集上创造了82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
提出了一种有效和高效的视觉提示调整(E^2VPT)方法来实现大规模基于Transformer的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低(例如,在VTAB-1k上,模型参数的0.32%)。
Jul, 2023
通过引入可学习的标记,VPA(Visual Prompt Adaptation)作为一个框架通过测试时间的自适应实现了视觉提示的普遍性,且不需要源领域信息,实验结果表明VPA有效提高了各种模型的历程泛化、抗干扰性和领域适应能力,以及对视觉-语言模型的零样本识别性能的鲁棒性改进。
Sep, 2023
以視覺提示(VP)作為研究對象,本文提出了AutoVP框架,用於自動化VP設計選擇,同時評估其性能。通過對12個下游圖像分類任務進行綜合性能評估,實驗結果顯示AutoVP優於當前已知VP方法,並提供了高達6.7%的準確率改進和最高27.5%的性能增益。
Oct, 2023
通过关键参数的优化和初始化,我们提出了一种改进的视觉提示调整方法,用于优化预训练模型在下游任务中的性能表现,并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。
Feb, 2024
通过Transferable Visual Prompting (TVP)这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的Multimodal Large Language Models(MLLMs)的性能,以提高其在下游任务中的应用能力。
Apr, 2024
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信息相关任务的附加知识。通过在语言模型的前馈网络(FFN)中加入视觉提示与权重的连接,MemVP方法大大减少了微调视觉语言模型的训练时间和推理延迟,并且在各种视觉语言任务和语言模型上的实验证明其性能超越了先前的PEFT方法。
May, 2024