Jun, 2023

任意少参数足以适应大规模预训练语言模型

TL;DR本研究发现模型缩放可以缓解调整方法的设计差异,并使调整方法优化更少的参数以实现全参数微调性能,并探讨了此现象与优化角度的机制,这些结论不仅证明了模型缩放对调整方法的积极影响,还披露了其机制,有助于我们设计更有效和高效的调整方法。