豪猪神经网络：(几乎)所有的局部最优都是全局最优

Oct, 2017

豪猪神经网络：(几乎)所有的局部最优都是全局最优

Porcupine Neural Networks: (Almost) All Local Optima are Global

Soheil Feizi, Hamid Javadi, Jesse Zhang, David Tse

TL;DR本文提出 Porcupine Neural Networks 对神经网络进行优化并在结果中显示了大多数本地最优解均达到全局优化，同时在本地最优解可能存在的区域提出了一种特征，进而证明了不加约束条件的神经网络可用多项式规模的 PNN 进行逼近。

Abstract

neural networks have been used prominently in several machine learning and statistics applications. In general, the underlying optimization

发现论文，激发创造

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

OptNet: 神经网络层中的可微分优化

OptNet是一种深度神经网络体系结构，可以将优化问题作为单独的层集成到大的可端到端可训练深度网络中，并且可以使用灵敏度分析、双层优化和隐式差分等技术来确切地区分这些层，而且能够学会硬约束优化问题，比其他神经网络工具效果更好。

Mar, 2017

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入/输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

神经网络中的廉价正交约束: 正交和幺正群的简单参数化

本文提出了一种基于Lie群理论的指数映射参数化方法，将带有正交和酉约束的优化问题转化为欧几里德空间上的无约束问题，并在RNN中得到了应用，改进了正交约束优化问题的稳定性和收敛速度。

Jan, 2019

浅层ReLU神经网络的过度参数化对优化空间的影响

本文研究了ReLU神经网络中的过度参数化对优化景观的影响，证明了当教师和学生网络拥有相同数量的神经元时，目标函数在全局最小值周围具有强凸性，但在任何超参数化量之后甚至没有局部凸性，而对于大多数方向来说保持一点强凸性，并在此属性之下展示优化保证。

Jun, 2020

神经网络的全球概览

本文回顾了关于神经网络全局和局部损失函数的广泛研究，重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法，并讨论了实际神经网络的可视化和经验探索，最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。

Jul, 2020

轻度超参数化双层神经网络的局部收敛理论

本文研究了过度参数化对于神经网络构建优化的成功至关重要的原因，并发现过度参数化下的神经网络具有非常稳定的收敛性质，其学生节点不断向教师节点收敛，并有一个漂亮的收敛速率定理，该速率与学生节点的数量无关。

Feb, 2021

前馈神经构架空间局部最优网络分析

本研究利用局部最优网络（LON）分析，对候选解的适应度景观的导数进行了探讨以表征和可视化神经结构空间，结果表明LONs可能为分析和优化神经结构提供有效的范式。

Jun, 2022

递归神经网络的梯度下降的收敛性: 非渐近分析

我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现，并证明了在没有大量过参数化的情况下，梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限，(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响，该界限依赖于激活函数的李普希茨连续性。值得注意的是，这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比，前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述，通过约束范数的传输映射，并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。

Feb, 2024