BriefGPT.xyz
Ask
alpha
关键词
n:m structured sparsity
搜索结果 - 1
Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流
现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题,本文通过限制梯度传递以减少梯度噪声,提供了一种改善高稀疏度区域视觉和语言模型性能的方法,并针对模型精度和训练计算成本的权衡问题进行了评估。
PDF
5 months ago
Prev
Next