SIBO:用于参数高效微调的简单增强
本研究通过探索在语言任务中不同联邦学习设置中应用参数高效微调(PEFT)方法的机会和挑战,提出了一种名为 SLoRA 的方法,通过一种新颖的数据驱动初始化技术来克服在高异构数据环境中 LoRA 的关键限制,实现与全面微调可比的性能,并以大约 1% 的密度实现显著稀疏更新,同时将训练时间减少高达 90%。
Aug, 2023
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法,称为 Stratified Progressive Adaptation Fine-tuning(SPAFIT)。我们在 GLUE 基准测试中进行的实验证明,我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下,优于其他 PEFT 方法。
Apr, 2024
参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要,通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分,我们进行了具备不同资源和域的全面实证实验,评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明,6 种参数高效微调架构在域内和域外测试中均超过了基准线,其中 Houlsby+Inversion 适配器表现最佳,验证了参数高效微调方法的有效性。
Apr, 2024
提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法(PEFT)框架,它通过 LoRA、BitFit 和 IA3 等技术,在几乎不需要可训练参数和 GPU 内存的情况下,展示了与预训练模型完全微调相当的性能,然而,在多模态微调中,经常需要进行架构修改或完全微调。为了解决这个问题,我们提出了 Context-PEFT,它根据令牌的领域学习不同的适配器参数组,这种方法使得可以实现类似 LoRA 的权重注入,而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估,在类似的数据限制下,优于完全微调,并同时提供了更高的参数效率和计算经济性的解决方案。
Dec, 2023
通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT 的基准方法(如 LoRA 和 DoRA),同时与 FT 相比,GPU 内存占用减少了 67%。
May, 2024
Sensi-BERT 是一种基于敏感性驱动的高效 BERT 模型微调方法,能够从现成的预训练 BERT 模型中生成高度参数有效的模型,适用于各种下游任务,且在相似或更小的参数预算下表现出比现有替代方案更好的性能。
Jul, 2023
本文提出了一种任务不可知的生成稀疏掩码的方法,仅使用预训练参数的振幅信息,可以显著提高性能和存储效率,并引入了一种新颖的适配器技术,可以直接应用于预训练参数,与全细调速度相同。
May, 2023
提出 AdaMix,在保持大部分 PLM 权重不变的情况下,通过调整每个 Transformer 层中引入的适应模块的混合来优化下游任务的性能,仅调整 0.1-0.2%的 PLM 参数即可胜过 SOTA 参数高效调整和完整模型调整的 NLU 和 NLG 任务。
Oct, 2022