神经网络中的泰勒逼近：修正线性单元网络中的收敛与探索

ICMLNov, 2016

神经网络中的泰勒逼近：修正线性单元网络中的收敛与探索

Neural Taylor Approximations: Convergence and Exploration in Rectifier Networks

David Balduzzi, Brian McWilliams, Tony Butler-Yeoman

TL;DR本文提供了第一个适用于现代卷积神经网络的收敛保证，并探究了通过探索激活配置空间更彻底而实现更好解的自适应优化器方法。

Abstract

Modern convolutional networks, incorporating rectifiers and max-pooling, are neither smooth nor convex; standard guarantees therefore do n

convolutional networks rectifiers max-pooling neural taylor approximation adaptive optimizers

发现论文，激发创造

带门控博弈的深层在线凸优化

本文研究了在具有 rectifier units 和 max-pooling 的卷积神经网络上使用梯度下降算法的收敛性，并通过引入 gated games 描述了神经网络学到的特征表示，提出了一种基于对数后悔算法的神经网络训练方法。

Apr, 2016

卷积整流网络作为广义张量分解

本研究介绍了一种将卷积算术电路转化为卷积整流网络的构造方法，并使用算术电路领域的数学工具证明了卷积整流网络是具有深度效率的，但这种效率相对于卷积算术电路来说还是较弱，因此开发有效的卷积算术电路训练方法可能会引发一种深度学习架构，其具有确凿的优势，但目前仍被从业者所忽视。

Mar, 2016

神经网络是凸正则化器：两层神经网络的精确多项式时间凸优化公式

本文中，我们利用半无限对偶及最小规范化，将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序，其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系，并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块 $l_1$ 惩罚的凸模型。此外，我们还证明了某些标准卷积线性网络等效于半定程序，可以在多项式大小的离散傅里叶特征空间中简化为带 $l_1$ 正则化的线性模型。

Feb, 2020

非线性逼近和（深层）ReLU 网络

该论文研究了深度神经网络的近似和表达能力，证明了神经网络在目标应用中比传统的非线性近似方法具有更强的近似能力，其中逼近单变量函数的 ReLU 神经网络是研究的重点，然而，尚缺乏一种完全定量化神经网络近似能力的理论。

May, 2019

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

ReLU 激活函数的神经网络参数化有多退化？

研究神经网络的优化问题，发现常见的损失函数在实现空间上是凸的，通过使用神经网络的近似能力来处理非凸性问题，利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性，并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。

May, 2019

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

半整流网络优化的拓扑和几何

本文研究深度神经网络优化问题中的高维非凸性质，通过对数据分布和模型进行分析得出深度线性网络与半修正网络拓扑结构差异明显、非线性问题基于数据分布平滑程度和模型过度参数化的相互影响，通过证明半修正单层网络的渐进连通性，以及通过分析水平面的几何特征来研究梯度下降的调节。实验结果显示，虽然吸引子很小，但这些水平面在所有的学习阶段都保持连通。

Nov, 2016

浅层 ReLU$^k$ 神经网络的最优逼近速率及其在非参数回归中的应用

研究了一些与浅层 ReLU$^k$ 神经网络相对应的变分空间的近似容量，证明了这些空间包含充分平滑的函数与有限变化范数。此外，还建立了以变化范数为基础的逼近率与神经元数量的最佳逼近率，并且证明了浅层 ReLU$^k$ 神经网络可以实现学习 H"older 函数的极小极值速率，而过参量化 (深或浅) 神经网络可以实现非参数回归的几乎最优速率。

Apr, 2023

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019