Mar, 2024

TaylorShift: 使用 Taylor-Softmax 将自注意力的复杂性从平方级转换为线性级(以及反向转换)

TL;DRTaylorShift 是一种新的 Taylor softmax 重构方法,能够在线性时间和空间内计算完整的 token-to-token 交互,提高了 Transformers 处理长序列的效率,并且在进行分类任务时不会降低准确性。