BriefGPT.xyz
Ask
alpha
关键词
e-sparse
搜索结果 - 1
E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理
传统修剪方法在大型语言模型中的使用具有挑战性,因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计,即 E-Sparse,以提高大型语言模型的 N:M 稀疏性准确性,并通过引入信息熵和几种创新技术来快速优化信息分
→
PDF
8 months ago
Prev
Next