Jan, 2025

Strassen注意机制:解锁变换器中的组合能力

TL;DR本文提出了一种新的方法来评估变换器的理论极限,首次证明了一层softmax变换器在无限精度下的下界,特别针对需要高级推理的任务。在此基础上,我们引入了Strassen注意机制,证明它可以解决这些任务,同时具有亚立方的运行时间复杂度,显示出比之前提出的机制更好的可扩展性。实验结果表明,Strassen注意机制在所有任务上均显著优于标准注意机制。