May, 2024

张量注意力训练:高阶 Transformer 的可证明高效学习

TL;DR我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算,同时提供了梯度的闭式解,并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性,并可能促进张量注意力架构的实际应用。