视觉调整
该论文提出了一种名为 Visual Prompt Tuning(VPT)的高效且有效的调整大规模 Transformer 模型的替代方案,相较于 fine-tuning,VPT 仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
该论文提出了基于 prompt 调节(Prompt tuning,Pro-tuning)的方法来替代 fine-tuning,适应于各种冻结视觉模型到不同的下游视觉任务。实验结果表明,这种方法在图像分类和密集预测任务方面表现优于 fine-tuning。
Jul, 2022
通过对 19 个不同数据集和任务的全面分析,我们发现 Visual Prompt Tuning(VPT)在任务目标差异大或数据分布相似时表现优异,而其成功不仅仅归因于过拟合和优化,而是因为 VPT 保留了原始特征并添加了参数。
Jan, 2024
本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架,可有效降低由于高计算和存储成本带来的计算和存储成本,并在低数据环境下实现优异的结果,特别是在贫瘠的视觉分类领域中。
Apr, 2023
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的 PVMs 达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了 PEFT 的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低 (例如,在 VTAB-1k 上,模型参数的 0.32%)。
Jul, 2023
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
Dec, 2023
该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法,通过学习一个微小的神经网络来联合优化跨不同模态的提示,并在 11 个视觉数据集上进行了强有力的测试,取得了较好的 few-shot learning 和 domain generalization 的效果。
Oct, 2022
局部微调可以同时提高效率和准确性,选取适合的层对局部微调至关重要。通过引入新的微调角度度量,可以灵活适应各种场景用于更实用的局部微调,同时提高模型性能和泛化能力,减少微调参数。实验证明了局部微调的巨大潜力。
Dec, 2023