CPET:压缩大型语言模型有效参数高效调整
Continual Parameter-Efficient Tuning (ConPET), a generalizable paradigm for continual task adaptation of large language models (LLMs) with task-number-independent training complexity, reduces tuning costs and alleviates over-fitting and forgetting issue through static and dynamic ConPET versions.
Sep, 2023
通过实证研究 PEFT 方法(LoRA 和 Compacter)在 CodeT5 和 CodeLlama 上的表现,评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移,以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言,其具有广泛的社区,而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用,此外,研究 R 语言为使用 LLMs 于其他语言提供了新机会,我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。
Mar, 2024
通过对大规模语言模型进行参数高效微调技术的研究,本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响,实验结果表明这些技术在减轻计算负担和提高性能方面表现优越,为软件工程场景中的更广泛应用开启了机会。
Aug, 2023
本研究发现模型缩放可以缓解调整方法的设计差异,并使调整方法优化更少的参数以实现全参数微调性能,并探讨了此现象与优化角度的机制,这些结论不仅证明了模型缩放对调整方法的积极影响,还披露了其机制,有助于我们设计更有效和高效的调整方法。
Jun, 2023
本文对参数节省调整方法(PETuning)的训练和评估进行了首次全面调查。研究发现当前 PETuning 研究中存在问题的验证和测试方法,以及 PETuning 方法的不稳定性,导致结论不可靠。当在真正公平的评估协议下进行比较时,PETuning 无法产生一致的竞争性表现,而在中高资源设置中细调仍然是表现最佳的方法。本文深入探讨了 PETuning 方法的不稳定性原因,观察到可训练参数数量和训练迭代次数是两个主要因素:减少可训练参数和延长训练迭代次数可能会导致 PETuning 方法的稳定性更高。
Feb, 2022
由于预训练语言模型(PLMs)的模型大小迅速增长,全面微调的训练和存储变得难以承受。在视觉与语言(VL)领域,提出了参数高效调整(PET)技术,将模块化修改(例如 Adapter 和 LoRA)整合到编码器 - 解码器 PLMs 中。通过调整一小组可训练参数,这些技术的性能与全面微调方法相当。然而,过多的模块化修改和忽视编码器和解码器之间的功能差距可能导致性能下降,而现有的 PET 技术(例如 VL-Adapter)忽视了这些关键问题。在本文中,我们提出了一种视觉与语言参数高效调整(VL-PET)框架,通过一种新的粒度控制机制对模块化修改的效果进行有效控制。考虑到此机制生成的不同粒度控制矩阵,可以从我们的框架实例化多种与模型无关的 VL-PET 模块,以获得更好的效率和效果权衡。我们进一步提出了轻量级 PET 模块设计,以增强编码器的 VL 对齐和建模能力,并保持解码器的文本生成能力。在四个图像 - 文本任务和四个视频 - 文本任务上进行的大量实验证明了我们 VL-PET 框架的效率、效果和可转移性。特别地,我们的 VL-PET-large 与轻量级 PET 模块设计在图像 - 文本任务上相比 VL-Adapter 提升了 2.92%(3.41%),相比 LoRA 提升了 3.37%(7.03%)(在 BART-base 和 T5-base 模型上)。此外,我们验证了采用我们的 VL-PET 设计对现有 PET 技术的增强效果,使其实现显著的性能提升。我们的代码可在此 https URL 获得。
Aug, 2023
Parameter-efficient fine-tuning techniques, such as ComPEFT, compress expert models without retraining, achieving high compression ratios while preserving or enhancing model performance for efficient communication, computation, and few-shot compositional generalization.
Nov, 2023
探讨了一种基于网络剪枝的高效的神经架构搜索方法用于学习预训练模型的参数优化方法 (Parameter-efficient tuning),并在 GLUE 上的实验结果表明算法的有效性以及 PET 网络结构设计的实际表现。
May, 2023
通过自动化的 PET 模块结构搜索方法 S^3PET,我们能够以远远低于用于传统模型的可训练参数的预算对预训练模型进行微调,搜索得到的结构具有高度可迁移性和可解释性且在保留超过 99% 微调性能的同时,只需 0.01% 的可训练参数。
Jun, 2022
该研究论文从参数高效微调(PEFT)对大语言模型(LLMs)的迫切需求出发,强调了当前状态和进一步研究该主题的必要性,以及需要解决的重要挑战和开放问题,包括创新 PEFT 架构、不同学习设置的 PEFT、结合模型压缩技术的 PEFT 以及多模态 LLMs 的 PEFT 探索。通过提出该立场论文,我们旨在激发进一步的研究,并促进围绕 LLMs 的更高效和可访问的 PEFT 的讨论。
Nov, 2023