BriefGPT.xyz
大模型
Ask
alpha
关键词
prune
搜索结果 - 1
STAT:训练后的 Transformer 收缩
我们提出了 STAT 算法,一种简单的算法用于修剪 transformer 模型,而无需进行任何微调。STAT 通过计算下一层权重的修正来压缩网络中的注意力头和神经元,同时保持精度,并使用一系列有原则的矩阵分解方法来压缩网络结构。该算法仅需
→
PDF
a month ago
Prev
Next