Feb, 2024

ProSparse: 大型语言模型中引入并增强内在激活稀疏性

TL;DR本文介绍了一种名为 “ProSparse” 的有效稀疏化方法,通过将大型语言模型中的激活函数替换为 ReLU,并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化,实现了更高的激活稀疏性而不降低模型性能,从而提供了实际的推理加速。