动态视觉提示调整用于参数高效的迁移学习

Sep, 2023

动态视觉提示调整用于参数高效的迁移学习

Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning

Chunqing Ruan, Hongjian Wang

TL;DR参数有效的迁移学习 (PETL) 是一个新兴的研究领域，旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT)，可以为每个图像生成动态的实例级标记，以捕捉每个图像的独特视觉特征，从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验，我们发现 DVPT 方法在性能上优于其他 PETL 方法，甚至在 19 个下游任务中有 17 个超越了完全微调的性能，同时保持了高参数效率。

Abstract

parameter efficient transfer learning (PETL) is an emerging research spot that aims to adapt large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage and computation costs. However, these methods do not take into account

parameter efficient transfer learning dynamic visual prompt tuning instance-specific visual clues meta-net module downstream recognition tasks

发现论文，激发创造

PVP：预训练的视觉参数高效微调

本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架，可有效降低由于高计算和存储成本带来的计算和存储成本，并在低数据环境下实现优异的结果，特别是在贫瘠的视觉分类领域中。

Apr, 2023

DVPT：面向医学图像分析的大型预训练模型的动态视觉提示调优

通过引入动态视觉提示调整方法，本研究提出了一种适应多样的医学图像输入变化的参数高效微调方法，命名为 DVPT，该方法从大模型中提取有益于下游任务的知识，可通过仅使用少量可训练参数从零开始训练医学图像分析模型。

Jul, 2023

视觉提示调优

该论文提出了一种名为 Visual Prompt Tuning（VPT）的高效且有效的调整大规模 Transformer 模型的替代方案，相较于 fine-tuning，VPT 仅在输入空间中引入很少的可训练参数，通过在广泛的下游识别任务上的实验，我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀，同时减小了每个任务的存储成本。

Mar, 2022

重访视觉调优的能量与提示

通过关键参数的优化和初始化，我们提出了一种改进的视觉提示调整方法，用于优化预训练模型在下游任务中的性能表现，并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。

Feb, 2024

E^2VPT: 一种有效高效的图像提示调整方法

提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应，该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层，以提高模型微调的效果，并设计了提示修剪程序来系统地修剪低重要性的提示，同时保持模型性能，极大地提升了模型的效率。实证结果表明，我们的方法在两个基准测试上优于几种最先进的基线模型，并且参数使用非常低 (例如，在 VTAB-1k 上，模型参数的 0.32%)。

Jul, 2023

BlackVIP: 用于稳健转移学习的黑盒视觉提示

本研究提出了基于黑盒视觉提示的少样本学习方法，拥有强大的适应能力和鲁棒性，能够高效地适应并提高预训练模型的性能。

Mar, 2023

面对房间里的大象：视觉提示调整还是全面微调？

通过对 19 个不同数据集和任务的全面分析，我们发现 Visual Prompt Tuning（VPT）在任务目标差异大或数据分布相似时表现优异，而其成功不仅仅归因于过拟合和优化，而是因为 VPT 保留了原始特征并添加了参数。

Jan, 2024

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

iVPT：通过跨层动态连接改进视觉提示调整中的任务相关信息共享

最近的进展显示出了将预训练的视觉转换器应用到各种下游任务中的视觉提示调整（VPT）的巨大潜力。本文提出了一种创新的 VPT 方法，即 iVPT，它通过从相邻层的输入提示令牌中引入跨层动态连接（CDC），实现了任务相关信息的有效共享，并采用动态聚合（DA）模块促进了层间信息的选择性共享。基于这些基础，iVPT 引入了一种关注强化（AR）机制，通过自动识别显著的图像令牌，并以增加的方式与提示令牌进一步增强。对 24 个图像分类和语义分割基准的大量实验证明了所提出的 iVPT 相对于现有最先进方法的优势。

Apr, 2024

视觉 - 语言预训练模型的参数和计算高效迁移学习

我们提出了一种参数和计算效率高的转移学习方法，通过动态架构跳过和增强学习来优化视觉语言预训练模型，以减少参数数量和计算冗余，并验证其在视觉语言任务中的优越性。

Sep, 2023