BriefGPT.xyz
Aug, 2024
逐步解封高效参数微调大语言模型
Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models
HTML
PDF
Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty
TL;DR
本文研究了解决大语言模型微调时计算资源消耗大的问题。提出了一种名为ID³的新方法,通过动态评估参数重要性,以平衡探索与利用,对参数进行选择性微调,显著提升了微调效率与性能。研究表明,ID³能够将梯度更新次数减少一半,从而提高计算效率,并能与现有框架无缝集成。
Abstract
Fine-tuning
Large language models
(LLMs) on downstream tasks requires substantial computational resources. A class of parameter-efficient
Fine-tu
→