稀疏神经网络学习激活函数
本研究旨在通过研究两种类型的自适应激活函数来填补理解有限数据情景下可变激活函数对分类准确性和预测不确定性的影响的重要空白。研究结果表明,具有个体训练参数的自适应激活函数(如 ELU 和 Softplus)能够产生准确且自信的预测模型,优于固定形状激活函数和在隐藏层中使用相同可训练激活函数的不太灵活的方法。因此,该研究提供了在科学和工程问题中设计自适应神经网络的简洁方法。
Feb, 2024
本文提出一种新的激活单元,与传统的 per-pixel 激活单元相比,该单元实现了可学习的带有空间连接的非线性函数,使神经网络能够捕捉更复杂的特征,从而在图像恢复问题中取得了极高的性能和效率。
Nov, 2017
本文提出了一种可训练的激活函数,使用贝叶斯建模自动估计学习数据中的模型权重和激活函数参数,并使用基于 MCMC 的优化方案进行推断,通过使用有效的采样方案来提高收敛速度并减少过度拟合问题,取得了良好的检验结果,并通过激活函数提高了模型的准确性。
Apr, 2023
许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究,并呈现了多种实验结果,表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识,以便能够在实践中利用激活稀疏性。
Jun, 2024
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性,仅用 ReLU 替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的 dReLU 函数,旨在改善 LLM 的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用 Mixture-of-Experts(MoE)模型中 Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代只激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了 2-5 倍的解码加速。值得注意的是,在手机上,我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。
Jun, 2024
本研究提出量化裁剪 - 移位激活函数以更好地逼近 Spiking Neural Networks 的激活函数,能在超低延迟 (4 time-steps) 的情况下实现高精度和超低延迟的 SNNs,并在 CIFAR-10/100 和 ImageNet 数据集上提高了性能。
Mar, 2023
本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数,旨在使稀疏训练达到更高的准确性和更高的稀疏度,实验结果表明,相较于目前最先进的稀疏训练方法,在多项深度学习任务中,本文所提出的方法额外具有更高的准确性。
Nov, 2022