ReLU 反击：在大型语言模型中利用激活稀疏性

Oct, 2023

ReLU 反击：在大型语言模型中利用激活稀疏性

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

Iman Mirzadeh, Keivan Alizadeh, Sachin Mehta, Carlo C Del Mundo, Oncel Tuzel...

TL;DR这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法，通过重新引入 ReLU 激活函数并探索其稀疏模式，作者提出了一种实用的策略，可以显著减少推断计算量，达到三倍的性能提升。

Abstract

large language models (LLMs) with billions of parameters have drastically transformed AI applications. However, their demanding computation during inference has raised significant challenges for deployment on resource-c

large language models inference computation relu activation performance trade-offs resource-constrained devices

发现论文，激发创造

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

ProSparse: 大型语言模型中引入并增强内在激活稀疏性

本文介绍了一种名为 “ProSparse” 的有效稀疏化方法，通过将大型语言模型中的激活函数替换为 ReLU，并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化，实现了更高的激活稀疏性而不降低模型性能，从而提供了实际的推理加速。

Feb, 2024

Turbo 稀疏：最小激活参数实现 LLM 的最新技术表现

利用激活稀疏性是大型语言模型（LLM）推理过程中显著加速的一种有希望的方法，但是激活稀疏性由激活函数决定，而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性，仅用 ReLU 替换这些函数无法实现足够的稀疏性，此外，不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的 dReLU 函数，旨在改善 LLM 的激活稀疏性，以及高质量的训练数据混合比例以促进有效稀疏化。此外，我们利用 Mixture-of-Experts（MoE）模型中 Feed-Forward Network（FFN）专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型，每次推理迭代只激活 25 亿和 43 亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了 2-5 倍的解码加速。值得注意的是，在手机上，我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。

Jun, 2024

ReLU$^2$ 胜出：发现稀疏 LLMs 的高效激活函数

基于对神经元输出大小和阈值的调整，我们提出了一种通用方法，用于定义神经元激活，并证明非 ReLU 的大语言模型也可以呈现稀疏激活。通过对不同激活函数的模型进行全面的实验，我们发现采用 ReLU$^2$ 的模型在稀疏性、预测性以及硬件亲和性等方面表现出色，显示出其作为稀疏大语言模型中高效的激活函数的潜力。

Feb, 2024

LLaMA 模型中的动态激活陷阱：实证研究

我们对 LLaMA 系列语言模型中动态激活机制的功效进行了系统的调查，发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明，与 ReLU 激活函数的对应模型相比，LLaMA 模型在要求高稀疏比率的场景中通常表现较差。我们将这些缺陷归因于以下几个因素：1）动态预测激活头和神经元的内在复杂性；2）激活函数引起的不充分稀疏性；3）KV 缓存跳过引起的信息不充分保留。我们的分析不仅揭示了大规模 LLaMA 模型中动态激活的局限性，还提出了增强未来稀疏方案设计的路线图。

May, 2024

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021

神经网络激活函数的作用

本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。

Oct, 2019

ReLUs 足以学习隐式神经表示

通过第二阶 B 样条小波的灵感，我们给深度神经网络 (DNN) 每一层的 ReLU 神经元引入一组简单的约束以修正其谱偏差，从而实现对各种隐式神经表示任务的有效使用。通过实验证明，与普遍观点相反，基于只包含 ReLU 神经元的 DNN 可以学习出最先进的隐式神经表示。我们利用最近关于 ReLU 神经网络学习函数类型的理论工作，提供了一种量化学习函数规则性的方法，为 INR 架构中的超参数选择提供了有原则的方法。通过在信号表示、超分辨率和计算机断层扫描等领域进行实验，我们验证了我们方法的多样性和有效性。所有实验的代码可以在此 URL 中找到。

Jun, 2024

深且窄的前馈神经网络的改进权重初始化

通过引入新的权重初始化方法，本论文证明了所提出的初始权重矩阵的特性，展示了这些特性如何促进信号向量的有效传播，并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。

Nov, 2023

卷积网络中修正的激活函数的实证评估

本文通过评估不同类型的修正线性单元 rectified activation functions（包括：标准修正线性单元（ReLU），泄漏修正线性单元（Leaky ReLU），参数修正线性单元（PReLU）以及随机泄漏修正线性单元（RReLU））在图像分类任务中的表现，结论表明，对修正激活单元中的负部分引入非零斜率可以始终改善结果，从而推翻了稀疏性是 ReLU 良好性能的关键的常见信念。另外，在小规模数据集上，使用确定性的负斜率或学习固定斜率都容易过拟合，使用随机斜率则更为有效。通过使用 RReLU，我们在 CIFAR-100 测试集上实现了 75.68％的准确度（无多次测试或集合）。

May, 2015