多模态大语言模型参数高效微调的实证研究
本文主要介绍了大型语言模型的 fine-tuning 方法 ——parameter-efficient fine-tuning(PEFT),并通过对 FLAN-T5 模型的综合测试和分析,提出了选择 fine-tuning 技术的最佳方法,重点考虑任务类型和数据可用性,同时指出了 PEFT 方法在数据过少的情况下的收敛速度慢的问题,提出了更好的 model optimization 方法。
Apr, 2023
参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要,通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分,我们进行了具备不同资源和域的全面实证实验,评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明,6 种参数高效微调架构在域内和域外测试中均超过了基准线,其中 Houlsby+Inversion 适配器表现最佳,验证了参数高效微调方法的有效性。
Apr, 2024
本文提出 LLMs-Adapters 框架,利用少量可调参数对小型 LLMs 进行 fine-tuning,实现对各种任务的支持;在六种数学推理数据集上的实验表明,将 adapter-based PEFT 应用于小型 LLMs(7B)可以取得与强大的 LLMs(175B)相似甚至更优秀的性能,旨在推进 adapter-based PEFT 的研究,为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。
Apr, 2023
该研究论文从参数高效微调(PEFT)对大语言模型(LLMs)的迫切需求出发,强调了当前状态和进一步研究该主题的必要性,以及需要解决的重要挑战和开放问题,包括创新 PEFT 架构、不同学习设置的 PEFT、结合模型压缩技术的 PEFT 以及多模态 LLMs 的 PEFT 探索。通过提出该立场论文,我们旨在激发进一步的研究,并促进围绕 LLMs 的更高效和可访问的 PEFT 的讨论。
Nov, 2023
本文通过全面实证研究发现,适当的 Tuning 数量的 Parameter-efficient fine-tuning methods,特别是使用了嵌入小型前馈神经网络 (adapters) 的模型,可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平,尤其当参数预算为 10%的情况下。但是,当调优参数数量减少时,PEFT 的性能会随之减弱,这一降低幅度取决于语言对的关系,而对于小型数据集,PEFT 的性能优于同样的预训练模型的全模型调整。
May, 2022
对不同规模的模型以及临床决策任务的适用性进行研究,揭示大型语言模型的效果与 Parameter Efficient Fine-tuning 方法的关系,发现 LoRA 方法在各项任务和模型规模下都能保持较高的性能,专用模型在速度和训练成本上具有优越性,与大型基础语言模型相比效果更好,同时探讨了领域特定预训练与 PEFT 方法和模型规模之间的相互影响,以及提供最佳效率与性能平衡的因素。
Feb, 2024
通过实证研究 PEFT 方法(LoRA 和 Compacter)在 CodeT5 和 CodeLlama 上的表现,评估它们相较于完全微调模型的性能、是否可用于从自然语言模型到代码的知识转移,以及它们适应学习知识到一种未见语言的能力。我们的研究目标是研究 R 语言,其具有广泛的社区,而 LLMs 的适应性和较低的计算成本使其能够在缺乏大量计算资源的情况下使用,此外,研究 R 语言为使用 LLMs 于其他语言提供了新机会,我们期望得出 PEFT 方法在 R 语言的代码 LLMs 上的能力以及改进领域。
Mar, 2024
提出了一种用于多模态、多任务迁移学习的新型参数高效调参方法(PEFT)框架,它通过 LoRA、BitFit 和 IA3 等技术,在几乎不需要可训练参数和 GPU 内存的情况下,展示了与预训练模型完全微调相当的性能,然而,在多模态微调中,经常需要进行架构修改或完全微调。为了解决这个问题,我们提出了 Context-PEFT,它根据令牌的领域学习不同的适配器参数组,这种方法使得可以实现类似 LoRA 的权重注入,而不需要额外的架构修改。我们的方法在 COCO 字幕任务上进行评估,在类似的数据限制下,优于完全微调,并同时提供了更高的参数效率和计算经济性的解决方案。
Dec, 2023