动态视觉提示调整用于参数高效的迁移学习
本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架,可有效降低由于高计算和存储成本带来的计算和存储成本,并在低数据环境下实现优异的结果,特别是在贫瘠的视觉分类领域中。
Apr, 2023
通过引入动态视觉提示调整方法,本研究提出了一种适应多样的医学图像输入变化的参数高效微调方法,命名为 DVPT,该方法从大模型中提取有益于下游任务的知识,可通过仅使用少量可训练参数从零开始训练医学图像分析模型。
Jul, 2023
该论文提出了一种名为 Visual Prompt Tuning(VPT)的高效且有效的调整大规模 Transformer 模型的替代方案,相较于 fine-tuning,VPT 仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
通过关键参数的优化和初始化,我们提出了一种改进的视觉提示调整方法,用于优化预训练模型在下游任务中的性能表现,并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。
Feb, 2024
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低 (例如,在 VTAB-1k 上,模型参数的 0.32%)。
Jul, 2023
通过对 19 个不同数据集和任务的全面分析,我们发现 Visual Prompt Tuning(VPT)在任务目标差异大或数据分布相似时表现优异,而其成功不仅仅归因于过拟合和优化,而是因为 VPT 保留了原始特征并添加了参数。
Jan, 2024
本研究提出了一种名为 “Approximated Prompt Tuning” 的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
最近的进展显示出了将预训练的视觉转换器应用到各种下游任务中的视觉提示调整(VPT)的巨大潜力。本文提出了一种创新的 VPT 方法,即 iVPT,它通过从相邻层的输入提示令牌中引入跨层动态连接(CDC),实现了任务相关信息的有效共享,并采用动态聚合(DA)模块促进了层间信息的选择性共享。基于这些基础,iVPT 引入了一种关注强化(AR)机制,通过自动识别显著的图像令牌,并以增加的方式与提示令牌进一步增强。对 24 个图像分类和语义分割基准的大量实验证明了所提出的 iVPT 相对于现有最先进方法的优势。
Apr, 2024
我们提出了一种参数和计算效率高的转移学习方法,通过动态架构跳过和增强学习来优化视觉语言预训练模型,以减少参数数量和计算冗余,并验证其在视觉语言任务中的优越性。
Sep, 2023