从精度冗余的角度重新审视适配器的参数效率
本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法,通过梯度反向传播高速公路实现低秩适配器,可以在保持模型性能相当的情况下,节省高达 62.2% 的训练存储器和 26.2% 的训练时间。
Jun, 2023
本文提出了 Conv-Adapter,一种适用于 CV 的参数高效调整方法,通过学习特定任务的高效特征调整使得在各种分类下游任务上表现出色,且具有与传统方法相当的性能,同时适用于检测和分割任务。
Aug, 2022
通过对多个 adapter、任务和语言在有监督和跨语言零 - shot 设置中进行广泛实验,作者发现对于自然语言理解任务,adapter 的参数效率并不会转化为与全微调一样的效率优势。同时,使用多任务训练通过全微调也能达到与 adapter 相同的可维护 / 可扩展性,而且提供相对更快的训练时间。因此,作者推荐在 NLU 任务中,从业者应该依赖于全微调或多任务训练而不是使用 adapter。
May, 2023
由于预训练语言模型(PLMs)的模型大小迅速增长,全面微调的训练和存储变得难以承受。在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改(例如 Adapter 和 LoRA)整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数,这些技术的性能与全面微调方法相当。然而,过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降,而现有的 PET 技术(例如 VL-Adapter)忽视了这些关键问题。在本文中,我们提出了一种视觉与语言参数高效调整(VL-PET)框架,通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵,可以从我们的框架实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地,我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%(3.41%),相比 LoRA 提升了 3.37%(7.03%)(在 BART-base 和 T5-base 模型上)。此外,我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果,使其实现显著的性能提升。我们的代码可在此 https URL 获得。
Aug, 2023
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
本文提出基于 adapter 的参数高效迁移学习技术,以 VL-BART 和 VLT5 为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高 adapter 的效率和性能,在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%,匹配了整个模型微调的性能,同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。
Dec, 2021
本文针对跨模态参数高效的图像到视频传递学习进行了研究,并提出了一种新的适应器 ——Spatio-Temporal Adapter,可以在较小的成本下实现有关动态视频内容的空时推理能力,并在视频动作识别任务上匹配或超越完全微调策略和最先进的视频模型,同时又具有参数效率的优势。
Jun, 2022
Adapter-X 是一种新的框架,通过参数共享和动态分配,以及引入特定设计来提高适应性,在更少的参数下优于传统的微调方法。
Jun, 2024
本文对参数节省调整方法(PETuning)的训练和评估进行了首次全面调查。研究发现当前 PETuning 研究中存在问题的验证和测试方法,以及 PETuning 方法的不稳定性,导致结论不可靠。当在真正公平的评估协议下进行比较时,PETuning 无法产生一致的竞争性表现,而在中高资源设置中细调仍然是表现最佳的方法。本文深入探讨了 PETuning 方法的不稳定性原因,观察到可训练参数数量和训练迭代次数是两个主要因素:减少可训练参数和延长训练迭代次数可能会导致 PETuning 方法的稳定性更高。
Feb, 2022
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的 PVMs 达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了 PEFT 的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024