深度神经网络的可微稀疏化

Oct, 2019

Differentiable Sparsification for Deep Neural Networks

Yognjin Lee

TL;DR本文提出一种全可微的神经网络稀疏化方法，结合随机梯度下降，可以训练参数为零的稀疏结构和权重。该方法直接适用于现代深度神经网络，对现有模型的修改最小，并为未来的结构学习和模型压缩方法奠定了基础。

Abstract

deep neural networks have relieved a great deal of burden on human experts in relation to feature engineering. However, comparable efforts are instead required to determine effective architectures. In addition, as the sizes of networks have grown overly large, a considerable amount of

deep neural networks sparsification differentiable model compression structure learning

发现论文，激发创造

通过结构化连续稀疏化增加深度网络的效率

本文提出了一种基于准确性和稀疏性目标的深层网络动态构建算法，与传统的剪枝方法不同，本方法采用渐进式连续松弛和网络优化，然后采样稀疏子网络，使得训练出来的深层网络更加高效。实验结果证明，采用本算法训练的网络比其他竞争的剪枝方法更加精确且规模更小。

Jul, 2020

基于数据驱动的深度神经网络稀疏结构选择

本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝，方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出，然后对这些因子加入稀疏正则化，并通过修改的随机加速远端梯度（APG）方法解决这个优化问题。将某些因子强制为零，可以安全地移除对应的结构，从而削减 CNN 的不重要部分，该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。

Jul, 2017

深度学习中的稀疏性：剪枝和生长用于神经网络的高效推理和训练

本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状，并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程，指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。

Jan, 2021

定时生长和修剪方法实现高效模型稀疏化

本文提出了一种新的计划性生长和修剪（GaP）方法，通过重复生长图层子集并在一定训练后将它们修剪回稀疏状态，以减少计算和内存成本，同时保持模型质量。实验结果表明，该方法获得的稀疏模型在各种任务中的性能都优于先前最先进的算法，并且无需预训练密集模型即可获得高质量的结果。

Jun, 2021

面向卷积神经网络的广义熵稀疏化

卷积神经网络 (CNNs) 被报道为过参数化。本文提出了一种基于数学思想的逐层数据驱动剪枝方法，旨在通过最小化网络熵来找到稀疏子网络，以解决网络架构搜索的复杂性问题。该方法在多个基准测试中得到验证，并在中稀疏度达到 55%-84% 时准确度损失为 0.1%-0.5%（LeNet 模型在 MNIST 数据集上），在稀疏度达到 73%-89% 时准确度损失为 0.1%-0.5%（VGG-16 和 ResNet18 模型在 CIFAR-10 数据集上）。

Apr, 2024

具备稀疏约束的端到端网络剪枝流程

神经网络稀疏化通过减少模型大小、计算复杂度和内存占用的同时保持竞争性能，成为在资源受限设备上部署的有效技术。本研究开发了适应神经网络稀疏化的全程训练流程，利用非标准模型参数初始化、预修剪训练方法和后修剪训练优化等技术，实现了显著提升于当前最先进的神经网络稀疏化方法的效果。

Dec, 2023

梯度下降剪枝神经网络

我们介绍了一种新颖而简单的神经网络剪枝框架，通过引入 Gumbel-Softmax 技术，在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构，实现了网络的卓越压缩能力，保持了在 MNIST 数据集上的高准确性，仅使用了原始网络参数的 0.15％。此外，我们的框架提升了神经网络的可解释性，不仅能够轻松从剪枝网络中提取特征重要性，而且能够可视化特征对称性和信息传递路径，学习策略通过深度学习得到，但却令人惊讶地直观且可理解，专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。

Nov, 2023

前向和后向传播稀疏化提高神经网络训练效率

该研究提出了高效的稀疏训练方法，通过引入连续性问题，将优化过程分为权重更新和结构参数更新两个步骤，前者可利用稀疏结构实现，后者通过方差减少策略梯度估计器而获得全面稀疏训练，维度之间的联系局限在两个步骤中，展示了远远超过之前方法的训练加速效果。

Nov, 2021

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

贝叶斯模型简化的深度神经网络的贝叶斯稀疏化

深度学习的复杂模型限制了其巨大潜力的发挥，需要高效的稀疏化技术。贝叶斯稀疏化是一种关键方法，能够设计出在各种深度学习应用中既计算效率高又性能竞争力强的模型。本研究指出贝叶斯模型简化是一种更高效的模型参数修剪方法，相对于现有的基于随机变分推断的方案，具有更好的计算效率和修剪率。研究中通过对各种深度学习架构的实例进行了验证，包括经典的网络如 LeNet 以及现代框架如视觉 Transformer 和 MLP-Mixer。

Sep, 2023