BriefGPT.xyz
Ask
alpha
关键词
spion
搜索结果 - 1
SPION: 基于卷积漫延的 Transformer 分层稀疏训练
我们提出了一种新颖的 Transformer 稀疏化方案,通过整合卷积滤波器和泛洪填充方法,高效捕捉自注意操作中的逐层稀疏模式,从而在 Transformer 的训练过程中降低计算复杂度和内存占用,实现了超过现有稀疏 Transformer
→
PDF
9 months ago
Prev
Next