EMNLPNov, 2022

语言模型加权低秩估计的数值优化

TL;DR我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法,该方法考虑了神经网络参数的不平等重要性,并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明,相较于传统的 SVD 方法,在压缩 Transformer 的语言模型时,我们的方法可以获得更好的效果。