在亚二次时间内训练多层过参数化神经网络

Dec, 2021

在亚二次时间内训练多层过参数化神经网络

Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time

Zhao Song, Lichen Zhang, Ruizhe Zhang

TL;DR本文提出了一种降低神经网络训练成本的框架，其中使用各种技术，包括基于 ReLU 的稀疏化器、低秩数据结构、矩形矩阵乘法、张量草图技术和预处理，实现每次迭代的真正次二次成本。

Abstract

We consider the problem of training a multi-layer over-parametrized neural networks to minimize the empirical risk induced by a loss function. In the typical setting of over-parametrization, the network width $m$ is much larger than the data dimension $d$ and number of training samples

neural networks over-parametrization training cost sparsifier preconditioning

发现论文，激发创造

（过参数化）神经网络的近线性时间训练

该论文提出了一种基于随机线性代数的改进的二阶优化算法，重新解构了高斯牛顿迭代，使用快速 Johnson-Lindenstrauss 变换进行预处理，并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络，并且取得了快速训练的效果。

Jun, 2020

浅层神经网络的次二次超参数化

本文采用 Polyak-Lojasiewicz 条件和随机矩阵理论，提供了一个分析框架，允许我们在基本浅层神经网络中同时训练所有层并达到网络宽度的理想亚二次标度。

Nov, 2021

神经网络中超参数化的强大作用与二次激活函数

本文研究了神经网络学习中超参数化的有效性，提出了一种使用局部搜索算法寻找全局最优解的方法，并使用 Rademacher 复杂性理论证明了在权重衰减的情况下，解决方案在数据采样自正态分布等正则分布的情况下也能很好地推广，同时还分析了具有二次激活函数和 n 个训练数据点的 k 个隐藏节点浅层网络的本质性质。

Mar, 2018

预处理有助于训练超参数化神经网络吗？

本论文提出两种新的预处理方法以实现针对深度神经网络的快速训练，从而绕过传统的训练方法中的高计算成本，并提供大量其他快速训练方法的理论启示。

Oct, 2021

关于学习超参数化神经网络的函数逼近视角

研究了使用梯度下降法在过度参数化的双层神经网络中训练，证明了在足够过度参数化的条件下，GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$，并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件，介绍了适用于球面上的多项式的一般结果的应用

May, 2019

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

超参数化的两层 ReLU 神经网络学习研究：从 NTK 出发

本文研究采用梯度下降算法学习双层神经网络，证明其具有多项式样本和多项式时间复杂度，且可以学习到真实网络，而任何具有多项式样本的核方法均具有 Omega 误差下限。

Jul, 2020

过参数化矩阵感知和二次激活神经网络中的算法正则化

本文研究了正定矩阵和一层神经网络的学习问题，通过梯度下降算法和二次激活函数的方式来实现隐式正则化，提出利用 UU 转置参数化正定矩阵并最小化平方损失函数的方法来恢复正定矩阵，并且证明在初始值的基础上，梯度下降算法大约在 O (sqrt (r)) 步长内能复原正定矩阵。

Dec, 2017

超参数对抗训练：克服维数灾难的一种分析

采用 ReLU 激活函数和多项式宽度网络，在自然条件下实现对抗性训练的收敛理论，且证明了近似阶跃函数的 ReLU 网络有独立兴趣。

Feb, 2020

几乎无过度参数化的神经网络学习和记忆

本文研究了通过神经网络算法实现各种模型的多项式时间可学习性，证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式，以及学习某些内核空间，并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。

Nov, 2019