Feb, 2023

通过控制变量实现高效关注

TL;DR通过控制变量的方法,我们将随机特征关注(RFA)分解成多个控制变量估计器的和,从而揭示了 RFA 和标准 softmax attention 之间的逼近差距。我们开发了一种更灵活的控制变量形式,得到了一种新颖的注意机制,该机制在保持线性复杂度的同时,显著降低了逼近差距,对于视觉和语言任务都比最新的高效注意机制表现更好。