稀疏神经网络学习激活函数

May, 2023

Learning Activation Functions for Sparse Neural Networks

Mohammad Loni, Aditya Mohan, Mehdi Asadi, Marius Lindauer

TL;DR本研究提出了一种新的方法，即 Sparse Activation Function Search（SAFS），结合了调整稀疏网络激活函数和独立的超参数优化（HPO）来提高稀疏神经网络的预测准确率。通过在多个数据集和深度神经网络模型上进行实验，结果显示，与默认的训练协议相比，特别是在高剪枝率下，在 LeNet-5、VGG-16 和 ResNet-18 中的准确率分别提高了 15.53％、8.88％和 6.33％。

Abstract

sparse neural networks (SNNs) can potentially demonstrate similar performance to their dense counterparts while saving significant energy and memory at inference. However, the accuracy drop incurred by SNNs, especially at high →

sparse neural networks activation functions hyperparameter optimization pruning ratios accuracy improvement

发现论文，激发创造

稀疏实验数据预测建模的自适应激活函数

本研究旨在通过研究两种类型的自适应激活函数来填补理解有限数据情景下可变激活函数对分类准确性和预测不确定性的影响的重要空白。研究结果表明，具有个体训练参数的自适应激活函数（如 ELU 和 Softplus）能够产生准确且自信的预测模型，优于固定形状激活函数和在隐藏层中使用相同可训练激活函数的不太灵活的方法。因此，该研究提供了在科学和工程问题中设计自适应神经网络的简洁方法。

Feb, 2024

学习激活函数的组合

本文介绍了两种自动学习不同激活函数组合的方法，并在三个标准数据集上与著名的体系结构进行了比较，显示了整体性能的显着改进。

Jan, 2018

学习激活函数以提高深度神经网络性能

使用自适应激活函数，设计了一种用于改进深层神经网络架构的分段线性激活函数，并在 CIFAR-10 等数据集上取得了最先进的表现。

Dec, 2014

xUnit: 学习一种空间激活函数用于高效图像修复

本文提出一种新的激活单元，与传统的 per-pixel 激活单元相比，该单元实现了可学习的带有空间连接的非线性函数，使神经网络能够捕捉更复杂的特征，从而在图像恢复问题中取得了极高的性能和效率。

Nov, 2017

可训练激活函数的稀疏神经网络贝叶斯优化

本文提出了一种可训练的激活函数，使用贝叶斯建模自动估计学习数据中的模型权重和激活函数参数，并使用基于 MCMC 的优化方案进行推断，通过使用有效的采样方案来提高收敛速度并减少过度拟合问题，取得了良好的检验结果，并通过激活函数提高了模型的准确性。

Apr, 2023

稀疏激活下的神经网络学习

许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究，并呈现了多种实验结果，表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识，以便能够在实践中利用激活稀疏性。

Jun, 2024

通过动态激活函数优化前馈和卷积神经网络的性能

复杂的分段线性激活函数在浅层和深层卷积神经网络中比 ReLu 激活函数效果更好，并使用 PyTorch 进行结果比较。

Aug, 2023

Turbo 稀疏：最小激活参数实现 LLM 的最新技术表现

利用激活稀疏性是大型语言模型（LLM）推理过程中显著加速的一种有希望的方法，但是激活稀疏性由激活函数决定，而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性，仅用 ReLU 替换这些函数无法实现足够的稀疏性，此外，不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的 dReLU 函数，旨在改善 LLM 的激活稀疏性，以及高质量的训练数据混合比例以促进有效稀疏化。此外，我们利用 Mixture-of-Experts（MoE）模型中 Feed-Forward Network（FFN）专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型，每次推理迭代只激活 25 亿和 43 亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了 2-5 倍的解码加速。值得注意的是，在手机上，我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。

Jun, 2024

高精度和超低延迟的脉冲神经网络的最佳 ANN-SNN 转换

本研究提出量化裁剪 - 移位激活函数以更好地逼近 Spiking Neural Networks 的激活函数，能在超低延迟 (4 time-steps) 的情况下实现高精度和超低延迟的 SNNs，并在 CIFAR-10/100 和 ImageNet 数据集上提高了性能。

Mar, 2023

更多探索的动态稀疏训练

本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数，旨在使稀疏训练达到更高的准确性和更高的稀疏度，实验结果表明，相较于目前最先进的稀疏训练方法，在多项深度学习任务中，本文所提出的方法额外具有更高的准确性。

Nov, 2022