Jun, 2024

Sparser 更快且更简洁:用于长程 Transformer 的高效稀疏注意力机制

TL;DR通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。