PVP：预训练的视觉参数高效微调

Apr, 2023

PVP: Pre-trained Visual Parameter-Efficient Tuning

Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao...

TL;DR本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架，可有效降低由于高计算和存储成本带来的计算和存储成本，并在低数据环境下实现优异的结果，特别是在贫瘠的视觉分类领域中。

Abstract

Large-scale pre-trained transformers have demonstrated remarkable success in various computer vision tasks. However, it is still highly challenging to fully fine-tune these models for downstream tasks due to thei

transformers petuning visual parameter-efficient tuning fine-grained visual classification downstream tasks

发现论文，激发创造

视觉提示调优

该论文提出了一种名为 Visual Prompt Tuning（VPT）的高效且有效的调整大规模 Transformer 模型的替代方案，相较于 fine-tuning，VPT 仅在输入空间中引入很少的可训练参数，通过在广泛的下游识别任务上的实验，我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀，同时减小了每个任务的存储成本。

Mar, 2022

动态视觉提示调整用于参数高效的迁移学习

参数有效的迁移学习 (PETL) 是一个新兴的研究领域，旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT)，可以为每个图像生成动态的实例级标记，以捕捉每个图像的独特视觉特征，从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验，我们发现 DVPT 方法在性能上优于其他 PETL 方法，甚至在 19 个下游任务中有 17 个超越了完全微调的性能，同时保持了高参数效率。

Sep, 2023

E^2VPT: 一种有效高效的图像提示调整方法

提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应，该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层，以提高模型微调的效果，并设计了提示修剪程序来系统地修剪低重要性的提示，同时保持模型性能，极大地提升了模型的效率。实证结果表明，我们的方法在两个基准测试上优于几种最先进的基线模型，并且参数使用非常低 (例如，在 VTAB-1k 上，模型参数的 0.32%)。

Jul, 2023

DVPT：面向医学图像分析的大型预训练模型的动态视觉提示调优

通过引入动态视觉提示调整方法，本研究提出了一种适应多样的医学图像输入变化的参数高效微调方法，命名为 DVPT，该方法从大模型中提取有益于下游任务的知识，可通过仅使用少量可训练参数从零开始训练医学图像分析模型。

Jul, 2023

敏感度感知的视觉参数高效调整

该文介绍了一种基于感知度的视觉参数调整方案（SPT），该方案可以自适应地将可训练参数分配给特定任务的重要位置，该方法可以有效降低模型存储和优化的难度，并可以取得较好的识别性能。

Mar, 2023

面对房间里的大象：视觉提示调整还是全面微调？

通过对 19 个不同数据集和任务的全面分析，我们发现 Visual Prompt Tuning（VPT）在任务目标差异大或数据分布相似时表现优异，而其成功不仅仅归因于过拟合和优化，而是因为 VPT 保留了原始特征并添加了参数。

Jan, 2024

VL-PET: 通过粒度控制实现视觉与语言参数高效调整

由于预训练语言模型（PLMs）的模型大小迅速增长，全面微调的训练和存储变得难以承受。在视觉与语言（VL）领域，提出了参数高效调整（PET）技术，将模块化修改（例如 Adapter 和 LoRA）整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数，这些技术的性能与全面微调方法相当。然而，过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降，而现有的 PET 技术（例如 VL-Adapter）忽视了这些关键问题。在本文中，我们提出了一种视觉与语言参数高效调整（VL-PET）框架，通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵，可以从我们的框架实例化多种与模型无关的 VL-PET 模块，以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计，以增强编码器的 VL 对齐和建模能力，并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地，我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%（3.41%），相比 LoRA 提升了 3.37%（7.03%）（在 BART-base 和 T5-base 模型上）。此外，我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果，使其实现显著的性能提升。我们的代码可在此 https URL 获得。

Aug, 2023

预训练视觉模型的参数高效微调：一项调查

规模化预训练视觉模型（PVMs）在各种下游视觉任务中表现出很大的适应性。然而，随着最先进的 PVMs 达到数十亿甚至数万亿参数，传统的完全微调范式变得难以持续，因为其需要巨大的计算和存储需求。为了应对这一挑战，研究人员正在探索参数高效的微调（PEFT），旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向，对最新的进展进行了系统回顾。首先，我们提供了 PEFT 的正式定义，并讨论了模型预训练方法。然后，我们将现有方法分为三类：基于添加的、基于部分的和基于统一的。最后，我们介绍了常用的数据集和应用，并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。

Feb, 2024

重访视觉调优的能量与提示

通过关键参数的优化和初始化，我们提出了一种改进的视觉提示调整方法，用于优化预训练模型在下游任务中的性能表现，并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。

Feb, 2024

重新审视参数高效调整：我们已经到达目标了吗？

本文对参数节省调整方法（PETuning）的训练和评估进行了首次全面调查。研究发现当前 PETuning 研究中存在问题的验证和测试方法，以及 PETuning 方法的不稳定性，导致结论不可靠。当在真正公平的评估协议下进行比较时，PETuning 无法产生一致的竞争性表现，而在中高资源设置中细调仍然是表现最佳的方法。本文深入探讨了 PETuning 方法的不稳定性原因，观察到可训练参数数量和训练迭代次数是两个主要因素：减少可训练参数和延长训练迭代次数可能会导致 PETuning 方法的稳定性更高。

Feb, 2022