双稀疏训练框架:通过转换的 L1 正则化诱导激活图稀疏性
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文介绍了一种名为 “ProSparse” 的有效稀疏化方法,通过将大型语言模型中的激活函数替换为 ReLU,并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化,实现了更高的激活稀疏性而不降低模型性能,从而提供了实际的推理加速。
Feb, 2024
通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法,本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数,证明了一种先前未报告的培训不稳定性,并表明通过剪枝激活函数的幅度,可以克服这种不稳定性,理论验证和数值实验表明,这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达 85%的稀疏度。
Feb, 2024
本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性,通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式(矩阵乘法和卷积)的矩阵乘法和卷积算法的协同设计,提出一组新的 ISA 扩展,实现了这种设计,抓住现今深度神经网络模型的两个主流计算模式的稀疏性,并证明了我们的设想可以显著提高性能。
May, 2021
本文评估了三种在深度神经网络中引入稀疏性的技术,并对两个大规模的学习任务进行了严格评估,结果表明,简单的幅度剪枝方法可以获得相当或更好的性能,而不能从头开始训练稀疏结构,并强调了建立大规模基准测试的必要性。
Feb, 2019
本文提出了 SparseTrain 来加速卷积神经网络的训练,该方法通过完全利用稀疏性,主要包括三个方面的创新:激活梯度剪枝算法、稀疏训练数据流和加速器架构。评估结果表明,与原始训练流程相比,SparseTrain 平均可实现约 2.7 倍的加速和 2.2 倍的能量效率提高。
Jul, 2020
利用激活稀疏性是大型语言模型(LLM)推理过程中显著加速的一种有希望的方法,但是激活稀疏性由激活函数决定,而常用的 SwiGLU 和 GeGLU 等函数显示出有限的稀疏性,仅用 ReLU 替换这些函数无法实现足够的稀疏性,此外,不充分的训练数据还会进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的 dReLU 函数,旨在改善 LLM 的激活稀疏性,以及高质量的训练数据混合比例以促进有效稀疏化。此外,我们利用 Mixture-of-Experts(MoE)模型中 Feed-Forward Network(FFN)专家内的稀疏激活模式进一步提高效率。通过将我们的神经元稀疏化方法应用于 Mistral 和 Mixtral 模型,每次推理迭代只激活 25 亿和 43 亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了 2-5 倍的解码加速。值得注意的是,在手机上,我们的 TurboSparse-Mixtral-47B 每秒实现 11 个标记的推理速度。我们的模型可在 https://huggingface.co/PowerInfer 获得。
Jun, 2024
本文提出深度神经网络在训练过程中能自动诱导出权重的分组稀疏性,利用此现象我们可以在训练完成之后快速减少模型尺寸,同时不会对模型表现带来太大影响。
Dec, 2018