Nov, 2024
稀疏法则:朝着具有更大激活稀疏性的语言模型
Sparsing Law: Towards Large Language Models with Greater Activation
Sparsity
TL;DR本研究解决了大型语言模型(LLMs)中激活稀疏性及其影响因素之间缺乏全面量化研究的问题。我们提出了一种新颖的激活稀疏性度量标准PPL-$p\%$,并通过大量实验发现了不同激活函数在训练时间和稀疏性趋势上的显著差异。这些发现为提高LLMs的效率和可解释性提供了重要依据。