深度神经网络优化：超参数化隐式加速

ICMLFeb, 2018

深度神经网络优化：超参数化隐式加速

On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization

Sanjeev Arora, Nadav Cohen, Elad Hazan

TL;DR本论文探讨深度学习模型的深度与优化之间的关系，通过对过度参数化模型的研究，发现适度的增加模型层数可以作为预处理器减轻优化量，加速模型的训练。

Abstract

Conventional wisdom in deep learning states that increasing depth improves expressiveness but complicates optimization. This paper suggest

deep learning optimization expressiveness overparameterization linear neural networks

发现论文，激发创造

当浅层模型强时，是否更深层模型更好？

该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力，证明了具有分形结构的分布可以被深层网络有效地表达，而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程，并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。

Mar, 2019

深度网络中的显式和隐式正则化结合，实现高效学习

通过研究隐性正则化的梯度轨迹，借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性，并提出显式惩罚来模拟这种偏好，从而使单层网络可以达到深度线性网络相同的低秩逼近性能。

Jun, 2023

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入 / 输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

模型压缩中过参数化的可证益处：从双峰下降到神经网络修剪

本文分析了过参数化模型剪枝中的双重下降现象，提出了在某些情况下，训练大型模型再进行剪枝比仅使用已知信息更好的理论证明，同时也发现了重新训练的好处以及在线性和随机特征模型中已经存在这些现象，这进一步促进了高维分析工具的发展。

Dec, 2020

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

迈向适度的过度参数化：为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

单隐藏层神经网络梯度流性质与线性激活函数的研究

通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响，我们证明了过度参数化会引入伪平衡点，阻碍梯度下降算法的收敛。

May, 2023

通过低维度学习动力学高效压缩超参数化深度模型

通过研究过度参数化的深度网络的学习动力学，我们揭示了各种体系结构的权重矩阵展现出低维结构，我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络，实验证明这种压缩技术能够加速训练过程超过两倍，而不牺牲模型质量。

Nov, 2023