无需增加延迟的参数高效微调
Light-PEFT framework enables efficient fine-tuning by pruning redundant parameters in the foundation model and PEFT modules, resulting in improved training and inference speed, reduced memory usage, and comparable performance to standard PEFT.
Jun, 2024
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
通过使用随机遮挡(Random Masking)方法,本研究探讨了参数高效微调(PEFT)的极限,展示了随机遮挡方法的出人意料的有效性,并证明了遮挡引导的损失平面更平缓、解决方案更分散,这使得可以使用更大的学习率来匹配标准 PEFT 算法在各种任务中的性能,而使用更少的可训练参数。
May, 2024
引入 X-PEFT,一种新的参数高效微调方法,通过微调极小的紧凑张量,作为二进制掩码来自适应地选择给定适配器,从而解决适配器数量线性增加的问题,相较于传统的适配器微调,在每个配置文件的内存需求减少了 10000 倍,而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。
Jan, 2024
本文通过全面实证研究发现,适当的 Tuning 数量的 Parameter-efficient fine-tuning methods,特别是使用了嵌入小型前馈神经网络 (adapters) 的模型,可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平,尤其当参数预算为 10%的情况下。但是,当调优参数数量减少时,PEFT 的性能会随之减弱,这一降低幅度取决于语言对的关系,而对于小型数据集,PEFT 的性能优于同样的预训练模型的全模型调整。
May, 2022
通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容,该论文对大模型在计算成本方面的问题进行了综述,提供了对性能和系统实施的深入洞察,为研究人员了解最新发展和实际应用提供了不可或缺的资源。
Mar, 2024
参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要,通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分,我们进行了具备不同资源和域的全面实证实验,评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明,6 种参数高效微调架构在域内和域外测试中均超过了基准线,其中 Houlsby+Inversion 适配器表现最佳,验证了参数高效微调方法的有效性。
Apr, 2024
提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法(PEFT)框架,它通过 LoRA、BitFit 和 IA3 等技术,在几乎不需要可训练参数和 GPU 内存的情况下,展示了与预训练模型完全微调相当的性能,然而,在多模态微调中,经常需要进行架构修改或完全微调。为了解决这个问题,我们提出了 Context-PEFT,它根据令牌的领域学习不同的适配器参数组,这种方法使得可以实现类似 LoRA 的权重注入,而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估,在类似的数据限制下,优于完全微调,并同时提供了更高的参数效率和计算经济性的解决方案。
Dec, 2023
通过使用较大的尺寸但内存高效的适配器,结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量,我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上,并采用类似于专家混合 (MoE) 的架构来减少不必要的中央处理器计算和图形处理器之间的通信量,尤其是在 PCI Express (PCIe) 的有限带宽下,我们的方法可以实现与具有更大内存容量的情况下相媲美的微调结果,即使在较为有限的资源下,如只有 24GB 内存单 GPU 设置下,也能达到可接受的训练效率损失。
Jun, 2024