IJCAIMay, 2022

针对大语言模型微调的参数高效稀疏化

TL;DR该研究提出了参数有效的稀疏训练 (PST) 方法,通过减少可训练参数的数量以使得稀疏训练资源有效并具有参数效益,从而解决了稀疏训练时计算开销和内存占用的问题,在 BERT,RoBERTa 和 GPT-2 等网络上得到了有效验证。