Oct, 2021

Skyformer:高斯核与 Nyström 方法重构自注意力

TL;DR本文提出了 Skyformer 模型,借鉴了核机器的计算方法,通过将 softmax 结构替换为高斯核以稳定模型训练,并将 Nyström 方法调整为一个非半正定矩阵以加速计算,实验结果表明该模型不仅需要的计算资源更少,而且在大规模 Arena 基准测试中表现得不逊于完全自注意力机制。