ICMLJun, 2024
短 - 长卷积有助于高效硬件线性注意力集中于长序列
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences
Zicheng Liu, Siyuan Li, Li Wang, Zedong Wang, Yunfan Liu...
TL;DR通过采用分层和分块思想,我们提出了 CHELA(硬件高效的短长卷积与线性注意力)来解决线性注意力在因果设置下仅保持在理论层面的问题,同时通过替换状态空间模型(SSMs)为短长卷积,实现了稳定的 SSMs,保持真正的线性复杂度。通过对 Long Range Arena 基准和语言建模任务的综合实验,我们证明了所提方法的有效性。