重访视觉调优的能量与提示
Visual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers (ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。
Jun, 2023
本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析,我们发现增加 Prompt 数量并不能带来线性的性能提升。为此,我们提出 Prompt Condensation 技术来防止 Prompt 数量过多导致的性能下降,实验证明我们的方法在维持准确度的同时能减少大约 70% 的 prompts 数量。
May, 2023
该论文提出了一种名为 Visual Prompt Tuning(VPT)的高效且有效的调整大规模 Transformer 模型的替代方案,相较于 fine-tuning,VPT 仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
长期空间提示调整 (LSPT) 是一种革命性的视觉表示学习方法,通过引入长期的门控提示,巧妙地结合了时间编码和空间编码,提高了视觉类别的区分和识别能力,同时在 5 个 FGVC 和 19 个 VTAB-1K 基准测试中展示了优于其他方法的性能。
Feb, 2024
本研究提出了一种名为 “Approximated Prompt Tuning” 的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
通过对 19 个不同数据集和任务的全面分析,我们发现 Visual Prompt Tuning(VPT)在任务目标差异大或数据分布相似时表现优异,而其成功不仅仅归因于过拟合和优化,而是因为 VPT 保留了原始特征并添加了参数。
Jan, 2024
最近的进展显示出了将预训练的视觉转换器应用到各种下游任务中的视觉提示调整(VPT)的巨大潜力。本文提出了一种创新的 VPT 方法,即 iVPT,它通过从相邻层的输入提示令牌中引入跨层动态连接(CDC),实现了任务相关信息的有效共享,并采用动态聚合(DA)模块促进了层间信息的选择性共享。基于这些基础,iVPT 引入了一种关注强化(AR)机制,通过自动识别显著的图像令牌,并以增加的方式与提示令牌进一步增强。对 24 个图像分类和语义分割基准的大量实验证明了所提出的 iVPT 相对于现有最先进方法的优势。
Apr, 2024
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低 (例如,在 VTAB-1k 上,模型参数的 0.32%)。
Jul, 2023
参数有效的迁移学习 (PETL) 是一个新兴的研究领域,旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT),可以为每个图像生成动态的实例级标记,以捕捉每个图像的独特视觉特征,从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验,我们发现 DVPT 方法在性能上优于其他 PETL 方法,甚至在 19 个下游任务中有 17 个超越了完全微调的性能,同时保持了高参数效率。
Sep, 2023
本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架,可有效降低由于高计算和存储成本带来的计算和存储成本,并在低数据环境下实现优异的结果,特别是在贫瘠的视觉分类领域中。
Apr, 2023