Jul, 2024

从GaLore到WeLore:稀疏梯度中低秩权重的非均匀出现

TL;DR现代大型语言模型(LLMs)由数十亿个元素组成的矩阵,其存储和处理对计算资源和内存使用非常苛刻,本文研究了在不同层的LLMs内矩阵低秩结构的产生和梯度动态之间的相关性,提出了一种统一的权重低秩投影(WeLore)方法,将权重压缩和内存高效微调融为一体,通过利用奇异值的重尾分布来确定适当的秩降缩放比例,能够显著减少内存和计算资源占用,且低秩组件(LRCs)具有更好的微调能力并能够在性能上接近或超过完全微调的训练损失轨迹和性能。