Feb, 2024
Transformer中鲁棒性N:M稀疏训练的渐进梯度流
Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers
Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal...
TL;DR现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题,本文通过限制梯度传递以减少梯度噪声,提供了一种改善高稀疏度区域视觉和语言模型性能的方法,并针对模型精度和训练计算成本的权衡问题进行了评估。