深度网络的神经元数量学习

NIPSNov, 2016

Learning the Number of Neurons in Deep Networks

Jose M Alvarez, Mathieu Salzmann

TL;DR使用结构稀疏性和组稀疏正则化对深度网络进行参数优化和削减，达到最高 80％的参数削减率并保持或提高网络精度。

Abstract

Nowadays, the number of layers and of neurons in each layer of a deep network are typically set manually. While very deep and wide networks have proven effective in general, they come at a high memory and computation cost, thus making them impractical for constrained platforms. These n

deep network structured sparsity group sparsity regularizer parameter reduction network accuracy

发现论文，激发创造

DropNeuron：简化深度神经网络结构

本研究提出了一种通过网络结构正则化来优化深度神经网络的新方法，在训练过程中简化神经网络可以在合理的计算时间内实现良好的性能，该方法在稀疏线性回归、深度自编码器和卷积神经网络等方面证明了出色的性能。

Jun, 2016

深度神经网络的数据无关参数剪枝

本研究探讨在已训练的神经网络模型中修剪神经元的问题并提出了一种系统性的方式去除冗余的相似神经元，并且通过在 MNIST 训练网络中修剪密集连接层，达到 85％的总参数去除率，在 AlexNet 上达到 35％去除率，并且没有明显影响其性能。

Jul, 2015

稀疏神经网络训练

本研究介绍了一种使用稀疏计算的神经网络训练和构建方法，通过引入额外的门变量来执行参数选择，并在小型和大型网络上进行实验验证，证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。

Nov, 2016

NestedNet: 在深度神经网络中学习嵌套稀疏结构

本文提出了一种新的深度学习框架，称为嵌套稀疏网络，它利用神经网络中的 n-in-1 类型嵌套结构，实现资源感知的多功能体系结构，可以满足不同的资源要求，并利用层次分类实现了多任务学习。此外，我们还提出了有效的权重连接学习和通道和层次调度策略，评估了我们的网络在多种任务中的性能。结果表明，嵌套稀疏网络相比现有方法具有更高的效率和竞争力。

Dec, 2017

神经网络架构的贝叶斯学习

本研究提出一种基于贝叶斯方法的神经网络架构参数估计方法，通过学习这些参数的具体分布来实现。研究表明，具有学习结构的正则网络在小数据集上可以更好地泛化，而完全随机化的网络可以更强健地处理参数初始化。与基于随机搜索的架构搜索不同，所提出的方法依赖于标准的神经变分学习，不需要对模型进行重新训练，从而最小化计算开销。

Jan, 2019

使用误差反向传播学习神经网络架构

研究了深度神经网络中参数数量的问题，提出了一种可学习的三态 ReLU 参数和一个平稳的正则化方法，通过减少不必要的神经元，可以在不影响预测准确性的情况下显著减少参数数量。

Nov, 2015

正则化压缩神经网络的学习

研究了深度神经网络的正则梯度下降算法，并通过量化约束集合的复杂度以及研究覆盖维度来探索正则化技术在加速训练、提高泛化性能以及学习更高效紧凑模型方面的优势。

Feb, 2018

深度学习中的稀疏性：剪枝和生长用于神经网络的高效推理和训练

本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状，并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程，指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。

Jan, 2021

给定神经网络中全连接层的最小神经元数量（第一近似）

该论文提出了一种算法，用于搜索解决给定问题的任意网络中完全连接层中的最少神经元数量，该算法不需要使用不同数量神经元的网络进行多次训练。该算法基于交叉验证方法在至少两个折叠上对初始宽网络进行训练。然后通过使用截断奇异值分解自动编码器插入在训练网络的所研究层之后，我们仅在网络的推断模式中搜索最少数量的神经元。

May, 2024

基于数据驱动的深度神经网络稀疏结构选择

本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝，方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出，然后对这些因子加入稀疏正则化，并通过修改的随机加速远端梯度（APG）方法解决这个优化问题。将某些因子强制为零，可以安全地移除对应的结构，从而削减 CNN 的不重要部分，该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。

Jul, 2017