Jun, 2021

稳定、快速和准确:基于核函数的相对位置编码的注意力机制

TL;DR使用快速傅里叶变换(FFT)可以有效加速具有相对位置编码(RPE)的 Transformer 模型中的注意力计算,并且适当使用相对位置编码可以缓解基准核化注意力的训练不稳定性问题。