May, 2023

通过分段仿射运算实现硬件高效的Transformer训练

TL;DR通过使用廉价的分段仿射逼近方法来代替浮点数乘法并将所有网络非线性替换为分段仿射函数,以实现现代神经网络完全无乘法训练的第一次成功,并展示了对于 transformer 在语言和视觉任务上的性能影响很少的结果修正矩阵乘法训练。