ReLU$^2$ 胜出：发现稀疏 LLMs 的高效激活函数

Feb, 2024

ReLU$^2$ 胜出：发现稀疏 LLMs 的高效激活函数

ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

Zhengyan Zhang, Yixin Song, Guanghui Yu, Xu Han, Yankai Lin...

TL;DR基于对神经元输出大小和阈值的调整，我们提出了一种通用方法，用于定义神经元激活，并证明非 ReLU 的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验，我们发现采用 ReLU$^2$ 的模型在稀疏性、预测性以及硬件亲和性等方面表现出色，显示出其作为稀疏大语言模型中高效的激活函数的潜力。

Abstract

sparse computation offers a compelling solution for the inference of Large Language Models (LLMs) in low-resource scenarios by dynamically skipping the computation of inactive neurons. While traditional approaches focus on ReLU-based LLMs, leveraging zeros in activation values, we broa

sparse computation large language models activation function systematic framework relu$^2$

发现论文，激发创造

ReLU 反击：在大型语言模型中利用激活稀疏性

这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法，通过重新引入 ReLU 激活函数并探索其稀疏模式，作者提出了一种实用的策略，可以显著减少推断计算量，达到三倍的性能提升。

Oct, 2023

Turbo 稀疏：最小激活参数实现 LLM 的最新技术表现

利用激活稀疏性是大型语言模型（LLM）推理过程中显著加速的一种有希望的方法，但是激活稀疏性由激活函数决定，而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性，仅用 ReLU 替换这些函数无法实现足够的稀疏性，此外，不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的 dReLU 函数，旨在改善 LLM 的激活稀疏性，以及高质量的训练数据混合比例以促进有效稀疏化。此外，我们利用 Mixture-of-Experts（MoE）模型中 Feed-Forward Network（FFN）专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型，每次推理迭代只激活 25 亿和 43 亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了 2-5 倍的解码加速。值得注意的是，在手机上，我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。

Jun, 2024

ProSparse: 大型语言模型中引入并增强内在激活稀疏性

本文介绍了一种名为 “ProSparse” 的有效稀疏化方法，通过将大型语言模型中的激活函数替换为 ReLU，并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化，实现了更高的激活稀疏性而不降低模型性能，从而提供了实际的推理加速。

Feb, 2024

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

稀疏诱导激活的深度神经网络初始化

通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法，本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数，证明了一种先前未报告的培训不稳定性，并表明通过剪枝激活函数的幅度，可以克服这种不稳定性，理论验证和数值实验表明，这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达 85％的稀疏度。

Feb, 2024

双稀疏训练框架：通过转换的 L1 正则化诱导激活图稀疏性

本研究论文介绍了一种基于转换的 l1 正则化方法来诱导激活图的稀疏性，以改善激活稀疏诱导领域的研究。同时，本方法与传统修剪结合，构成了双稀疏训练框架。实验结果表明，该方法在大多数模型和相应数据集上可以实现超过 20% 的激活图稀疏度提升，同时不影响准确性。另外，双稀疏训练框架能够大大减少计算负载并降低运行时所需的存储。

May, 2024

神经网络激活函数的作用

本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。

Oct, 2019

稀疏神经网络学习激活函数

本研究提出了一种新的方法，即 Sparse Activation Function Search（SAFS），结合了调整稀疏网络激活函数和独立的超参数优化（HPO）来提高稀疏神经网络的预测准确率。通过在多个数据集和深度神经网络模型上进行实验，结果显示，与默认的训练协议相比，特别是在高剪枝率下，在 LeNet-5、VGG-16 和 ResNet-18 中的准确率分别提高了 15.53％、8.88％和 6.33％。

May, 2023

稀疏激活下的神经网络学习

许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究，并呈现了多种实验结果，表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识，以便能够在实践中利用激活稀疏性。

Jun, 2024