May, 2023

乌贼:无需所有调整的低秩模型训练

TL;DR提出了一种名为 Cuttlefish 的自动低秩训练方法,它通过观察在完整秩训练的几个时期后,每层的稳定秩(即真实秩的近似值)稳定为一个常数值,从而消除了调整低秩模型训练中的多个超参数的需求。Cuttlefish 在所有层的稳定秩收敛后从完整秩训练切换到低秩训练,并将每个因子化的维度设置为其相应的稳定秩。结果表明,Cuttlefish 生成的模型比完整秩模型小多达 5.6 倍,并达到了 1.2 倍的更快的端到端训练过程,同时保持相当的准确性,在低秩模型训练和其他著名基线模型中表现出色。