May, 2024

Spectraformer: Transformer 的统一随机特征框架

TL;DR使用不同的核逼近和核学习技术进行注意力的线性化已显示出潜力,本文引入了 Spectraformer,这是一个用于近似和学习 Transformer 线性化注意力核函数的统一框架,通过对多种组件函数和权重矩阵的组合进行实验证明,我们发现一种新的组合可以使训练时间快 23.4%,内存消耗低 25.2%,并且保持性能与原始 Transformer 相当。