SA$^2$VP:空间对齐和自适应视觉提示
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低 (例如,在 VTAB-1k 上,模型参数的 0.32%)。
Jul, 2023
通过关键参数的优化和初始化,我们提出了一种改进的视觉提示调整方法,用于优化预训练模型在下游任务中的性能表现,并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。
Feb, 2024
长期空间提示调整 (LSPT) 是一种革命性的视觉表示学习方法,通过引入长期的门控提示,巧妙地结合了时间编码和空间编码,提高了视觉类别的区分和识别能力,同时在 5 个 FGVC 和 19 个 VTAB-1K 基准测试中展示了优于其他方法的性能。
Feb, 2024
通过引入可学习的标记,VPA(Visual Prompt Adaptation)作为一个框架通过测试时间的自适应实现了视觉提示的普遍性,且不需要源领域信息,实验结果表明 VPA 有效提高了各种模型的历程泛化、抗干扰性和领域适应能力,以及对视觉 - 语言模型的零样本识别性能的鲁棒性改进。
Sep, 2023
本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析,我们发现增加 Prompt 数量并不能带来线性的性能提升。为此,我们提出 Prompt Condensation 技术来防止 Prompt 数量过多导致的性能下降,实验证明我们的方法在维持准确度的同时能减少大约 70% 的 prompts 数量。
May, 2023
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信息相关任务的附加知识。通过在语言模型的前馈网络(FFN)中加入视觉提示与权重的连接,MemVP 方法大大减少了微调视觉语言模型的训练时间和推理延迟,并且在各种视觉语言任务和语言模型上的实验证明其性能超越了先前的 PEFT 方法。
May, 2024
这篇文章介绍了一种基于贝叶斯概率理论的视觉 - 语言预训练模型关键词学习方法,该方法通过优化可视化知识和充分利用图像与相应提示的语义联系,在充分表达不同特性的同时保证泛化性能,该方法具有良好的转移性能和泛化性能,结果表明该方法比一般的提示工程技术更加优秀。
Mar, 2023
本研究提出一个新的模型 Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉 - 语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法,通过针对目标演讲者的适应数据进行提示微调,显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能。
Feb, 2023
提出了 VIP,这是软提示调整框架的扩展,着重于两个方面 - 上下文提示通过小规模句子编码器学习软提示令牌的输入特定上下文化和量化提示通过向量量化网络将上下文提示映射到可学习的码本向量的设置。VIP 在各种语言理解任务上表现出优越性能,比软提示调整(PT)基线平均高出 1.19%,并且我们的一般化研究表明 VIP 学习了更稳健的提示表示。
May, 2022