缓和网络

Aug, 2016

Mollifying Networks

Caglar Gulcehre, Marcin Moczulski, Francesco Visin, Yoshua Bengio

TL;DR本文提出一种新的深度神经网络优化方法，通过使用逐渐变得更加非凸的平滑目标函数及控制复杂度的超参数，能在各种困难的优化任务中提高收敛表现并与神经网络连续化方法建立了联系。

Abstract

The optimization of deep neural networks can be more challenging than traditional convex optimization problems due to the highly

deep neural networks optimization non-convex mollification hyperparameter

发现论文，激发创造

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

半整流网络优化的拓扑和几何

本文研究深度神经网络优化问题中的高维非凸性质，通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响，通过证明半修正单层网络的渐进连通性，以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示，虽然吸引子很小，但这些水平面在所有的学习阶段都保持连通。

Nov, 2016

基于训练过的神经网络的优化：放松行走

此研究提出了一种基于全局和局部线性松弛的可扩展启发式方法，用于对训练后的神经网络模型进行建模和求解，具有与最先进的整数线性规划（MILP）求解器和之前的启发式方法相竞争，并且在输入、深度和神经元数量增加时能够产生更好的解。

Jan, 2024

神经网络的凸优化景观：通过 Lasso 模型表征全局最优和稳定点

通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程，并对其最优权重提供更好的解释，我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练，证明了这些网络可以表达为一个有限维的凸规划问题，其中包括促使稀疏性的正则化项，构成 Lasso 的变种。通过大量的数值实验，我们展示了凸模型可以胜过传统非凸方法，并且对于优化器的超参数并不敏感。

Dec, 2023

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

ReLU 激活函数的神经网络参数化有多退化？

研究神经网络的优化问题，发现常见的损失函数在实现空间上是凸的，通过使用神经网络的近似能力来处理非凸性问题，利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性，并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。

May, 2019

过参数非线性系统和神经网络中的损失景观和优化

本文提出了一种现代观点和一般性的数学框架，用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化，其中包括超参数深度神经网络，并说明这些系统的 PL$^*$ 条件密切相关，这解释了（S）GD 对全局最小值的收敛，并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。

Feb, 2020

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

在神经网络中围绕宽平坦最小值塑造学习模式

本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为，引入了宽平原（WFM）这一概念，并探索了 WFM 如何出现以及在学习中起到什么作用。

May, 2019

基于生成神经网络的超高维非凸全局优化

我们提出了一种非凸优化算法元启发式方法，基于深度生成网络的训练，能在连续、超高维度的空间中实现有效搜索。通过网络训练，利用采样的局部梯度种群在定制的损失函数内，将网络输出分布函数演化朝向高性能最优点的一个峰值。深度网络架构根据训练过程进行渐进增长，使得该算法能够处理高维空间的维度困境。我们将这一概念应用于一系列标准优化问题，维度高达一千，证明我们的方法在较少函数评估下表现更好，超过了现有算法基准。我们还讨论了深度网络超参数化、损失函数设计和适当网络架构选择在优化中的作用，以及采样的局部梯度所需的批量大小与问题维度无关。这些概念为一类利用可自定义和表达性强的深度生成网络来解决非凸优化问题的算法奠定了基础。

Jul, 2023