BriefGPT.xyz
大模型
Ask
alpha
关键词
sparsek attention
搜索结果 - 1
Sparser 更快且更简洁:用于长程 Transformer 的高效稀疏注意力机制
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
PDF
8 days ago
Prev
Next