Mar, 2024

更快的邻域注意力机制:在线程块级别降低自注意力的O(n^2)复杂度

TL;DR邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化,绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批GEMM问题,实现了1-D和2-D邻域注意力,并且与现有的朴素内核相比,平均提供了895%和272%的全精度延迟改进,我们观察到我们的融合内核成功地规避了未融合实现中不可避免的低效率。