Jun, 2024

基于变形器的学习可证明具有低秩和稀疏性:一层分析

TL;DR这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性,并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论,同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。