ICMLJun, 2024

短 - 长卷积有助于高效硬件线性注意力集中于长序列

TL;DR通过采用分层和分块思想,我们提出了 CHELA(硬件高效的短长卷积与线性注意力)来解决线性注意力在因果设置下仅保持在理论层面的问题,同时通过替换状态空间模型(SSMs)为短长卷积,实现了稳定的 SSMs,保持真正的线性复杂度。通过对 Long Range Arena 基准和语言建模任务的综合实验,我们证明了所提方法的有效性。