Jan, 2022

大型线性层的高效反向传播优化

TL;DR该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法,并证明该方法可以通过降低所需内存容量,从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试,结果表明,该方法即使降低了测试准确度,但仍能实现显著的内存消耗优化。