敏感度感知的视觉参数高效调整
本研究提出了一种基于先前训练模型的视觉快速参数调整 (PVP) 框架,可有效降低由于高计算和存储成本带来的计算和存储成本,并在低数据环境下实现优异的结果,特别是在贫瘠的视觉分类领域中。
Apr, 2023
由于预训练语言模型(PLMs)的模型大小迅速增长,全面微调的训练和存储变得难以承受。在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改(例如 Adapter 和 LoRA)整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数,这些技术的性能与全面微调方法相当。然而,过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降,而现有的 PET 技术(例如 VL-Adapter)忽视了这些关键问题。在本文中,我们提出了一种视觉与语言参数高效调整(VL-PET)框架,通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵,可以从我们的框架实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地,我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%(3.41%),相比 LoRA 提升了 3.37%(7.03%)(在 BART-base 和 T5-base 模型上)。此外,我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果,使其实现显著的性能提升。我们的代码可在此 https URL 获得。
Aug, 2023
本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法,通过梯度反向传播高速公路实现低秩适配器,可以在保持模型性能相当的情况下,节省高达 62.2% 的训练存储器和 26.2% 的训练时间。
Jun, 2023
Sparse-Tuning 是一种新的调优范式,通过稀疏保存信息标记并合并冗余标记,提高对前景的关注并降低背景区域的计算成本,实现了对预训练的 ViT 模型进行高效的微调和推断,同时具备了现有方法无法满足的 GPU 内存和时间效率要求。
May, 2024
参数有效的迁移学习 (PETL) 是一个新兴的研究领域,旨在将大规模预训练模型适应下游任务。我们提出了一个动态视觉提示调整框架 (DVPT),可以为每个图像生成动态的实例级标记,以捕捉每个图像的独特视觉特征,从而更适合下游视觉任务。通过对广泛的下游识别任务进行实验,我们发现 DVPT 方法在性能上优于其他 PETL 方法,甚至在 19 个下游任务中有 17 个超越了完全微调的性能,同时保持了高参数效率。
Sep, 2023
该论文提出了一种名为 Visual Prompt Tuning(VPT)的高效且有效的调整大规模 Transformer 模型的替代方案,相较于 fine-tuning,VPT 仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間,本研究發現低精度的適配器達到與高精度適配器相當的性能,且 1 位精度就足夠。
Jul, 2023
通过参数高效调优,利用指令调整和多模态对齐的方法,本研究提出了一种新的通用视觉 - 语言模型训练方法 PETAL,其通过独特的模式近似技术,显著减少了训练成本和对重计算资源的依赖,并在语义深度方面进行了改进。实验证明,PETAL 在多个方面超越了现有最先进的方法,同时在少样本设置中也展现了出色的优势。
Dec, 2023
通过自动化的 PET 模块结构搜索方法 S^3PET,我们能够以远远低于用于传统模型的可训练参数的预算对预训练模型进行微调,搜索得到的结构具有高度可迁移性和可解释性且在保留超过 99% 微调性能的同时,只需 0.01% 的可训练参数。
Jun, 2022
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低 (例如,在 VTAB-1k 上,模型参数的 0.32%)。
Jul, 2023