Feb, 2024

Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流

TL;DR现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题,本文通过限制梯度传递以减少梯度噪声,提供了一种改善高稀疏度区域视觉和语言模型性能的方法,并针对模型精度和训练计算成本的权衡问题进行了评估。