用于深度学习的结构稀疏性诱导自适应优化器

Feb, 2021

用于深度学习的结构稀疏性诱导自适应优化器

Structured Sparsity Inducing Adaptive Optimizers for Deep Learning

Tristan Deleu, Yoshua Bengio

TL;DR本文提出一种新颖的基于非可微惩罚项的 proximal 梯度方法来去除神经网络不重要的参数组，并针对两种结构性稀疏惩罚进行了权重 proximal 操作符导出，并证明了该方法的收敛性。同时，介绍了该方法在计算机视觉和自然语言处理中的应用。

Abstract

The parameters of a neural network are naturally organized in groups, some of which might not contribute to its overall performance. To prune out unimportant groups of parameters, we can include some non-differentiable penalty to the objective function, and minimize it using proximal g

neural network proximal methods sparsity inducing penalties adaptive proximal method computer vision

发现论文，激发创造

一种用于一般结构稀疏学习的平滑近端梯度方法

本文提出了一种称为平滑近端梯度方法的通用优化方法，它能够解决带有平滑凸损失和广泛结构稀疏诱导罚款的结构稀疏回归问题，通过 Nesterov 的一般平滑技术实现了比标准一阶法更快的收敛速度，比大多数广泛使用的内点法更可扩展。

Feb, 2012

一般结构稀疏回归的平滑近端梯度法

本文提出了一种通用的优化方法 —— 平滑近端梯度法 (SPG)，可以在结构化的稀疏惩罚下解决任何光滑凸损失的结构化稀疏回归问题。此方法在性能和可伸缩性方面都具有很大优势，并在模拟实验和真实的遗传数据集上进行了验证。

May, 2010

稀疏惩罚优化

本文介绍从一般的角度分析在使用稀疏估计方法中相关的优化工具和技术，包括近端方法、块坐标下降、加权 L2 正则技术、工作集和家族方法以及非凸形式和扩展。同时，我们提供了一组广泛的实验来比较各种算法在计算方面的差异。

Aug, 2011

截断梯度稀疏在线学习

这篇论文提出了一种新方法，称为截断梯度 (truncated gradient)，可以在凸损失函数的在线学习算法中诱导稀疏性，该方法具有连续控制稀疏化程度的参数，类似于 $L_1$ 正则化方法，理论上可以证明小的稀疏化率仅会导致额外的小代价，并且在实践中取得了良好的效果。

Jun, 2008

基于数据驱动的深度神经网络稀疏结构选择

本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝，方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出，然后对这些因子加入稀疏正则化，并通过修改的随机加速远端梯度（APG）方法解决这个优化问题。将某些因子强制为零，可以安全地移除对应的结构，从而削减 CNN 的不重要部分，该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。

Jul, 2017

基于凸优化的结构稀疏化

本文介绍了一种基于结构规则的稀疏估计方法，通过应用不仅仅关注稀疏性，而且可以考虑一些结构化先验知识，这种方法可以处理多种结构的问题。同时，我们还介绍了该方法在无监督学习、非线性变量选择等方面的应用。

Sep, 2011

用于结构稀疏性的网络流算法

本文研究了一个结构化稀疏正则化学习问题，提出了一种基于网络流优化的高效算法，在多个领域展示出了它的可行性和可扩展性。

Aug, 2010

基于正交坐标轴的惩罚项一正则化优化的近端随机梯度方法

介绍了一种新的随机优化算法 - 基于正交面的近端随机梯度方法（OBProx-SG）- 用于解决最流行的稀疏正则化问题，与现有方法相比，在稀疏探索和目标值方面综合表现优异，特别是在凸优化问题上获得了全局最优解，同时在非凸优化问题上获得了稳定点，同时在非凸深度神经网络中获得了更高稀疏度的解而不会牺牲泛化精度。

Apr, 2020

分层稀疏编码的邻近优化方法

该研究论文探讨了一种基于树形结构稀疏正则化规范的稀疏编码方法，提出了一种有效算法用于其优化，并通过图像、文本等实验结果展示了其在字典学习、噪声去除、主题学习等方面的应用潜力。

Sep, 2010

稀疏深度神经网络训练的多目标优化

深度学习中存在多个冲突的优化准则，本文提出了一种多目标优化算法，使用修改后的加权切比雪夫标量化方法来训练深度神经网络 (DNNs)，并通过实验证明了可以在训练过程中自适应地稀疏化模型，而不显著影响其性能。

Aug, 2023