Feb, 2024

ReLU$^2$ 胜出:发现稀疏 LLMs 的高效激活函数

TL;DR基于对神经元输出大小和阈值的调整,我们提出了一种通用方法,用于定义神经元激活,并证明非 ReLU 的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验,我们发现采用 ReLU$^2$ 的模型在稀疏性、预测性以及硬件亲和性等方面表现出色,显示出其作为稀疏大语言模型中高效的激活函数的潜力。