Taylorized 训练：有限宽度神经网络训练更好的逼近

Feb, 2020

Taylorized 训练：有限宽度神经网络训练更好的逼近

Taylorized Training: Towards Better Approximation of Neural Network Training at Finite Width

Yu Bai, Ben Krause, Huan Wang, Caiming Xiong, Richard Socher

TL;DR提出 “Taylorized training” 这一方式以更好地理解有限宽度下神经网络训练的特点，该方法包括在初始状态下培训神经网络的 k 阶泰勒展开，并是线性化训练的有原则的扩展，并通过在现代神经网络结构上尝试 Taylorized training 表明它可以显著缩小线性化和完全训练之间的性能差距，并证明在宽神经网络中，k 阶 Taylorized 模型的逼近误差在 k 中呈指数衰减。

Abstract

We propose \emph{taylorized training} as an initiative towards better understanding neural network training at finite width. taylorized training<

taylorized training neural network training deep learning approximation error exponential decay

发现论文，激发创造

超越线性化：关于宽神经网络的二次及高阶逼近

该研究探讨了超参数化神经网络的训练，通过随机化神经网络，使其模型不再受限于 NTK，允许其与二次模型进行耦合，并且证明了产生的随机网络的优化具有良好的局面性态，且样本复杂度与 NTK 相匹配，同时在分布特定条件下可更为优秀。

Oct, 2019

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019

关于参数化的二阶优化方法适用于无限宽度

通过提出一种特定的参数化方式，我们通过一步更新梯度和合适的超参数尺度来提高特征学习的鲁棒性，从而在大规模模型中加速深度神经网络的训练，并实现了更高的泛化性能。

Dec, 2023

线性化神经网络在泛化方面的实际表现

该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较，提供了强有力的实证证据来确定近似的实际有效性，发现网络并不总是表现优于其核近似，并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外，研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。

Jun, 2021

宽神经网络：从非高斯随机场的初始化到 NTK 训练几何

本文研究了具有大规模参数的人工神经网络，并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。

Apr, 2023

超参数神经网络中的学习和泛化：超越两层

本文通过分析神经网络在超参数化情况下的学习理论，证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外，本文还建立了一个神经网络的二次近似概念，并将其与如何逃离鞍点的 SGD 理论联系起来。

Nov, 2018

一种基于随机优化的训练非线性神经网络的高阶全变差正则化方法

高度表达的参数模型，如深度神经网络，在建模复杂概念方面具有优势，但这种高度非线性模型的训练已知存在高风险的过度拟合问题。为了解决这个问题，本研究考虑第 k 阶总变差（k-TV）正则化，该正则化定义为被训练的参数模型的 k 阶导数的平方积分，对 k-TV 进行惩罚有望产生更平滑的函数，以避免过度拟合。虽然应用于一般参数模型的 k-TV 项由于积分而具有计算上的困难，但本研究提供了一种随机优化算法，可以在不进行显式数值积分的情况下高效训练具有 k-TV 正则化的一般模型。所提出的方法适用于结构任意的深度神经网络的训练，因为它只需使用简单的随机梯度下降算法和自动微分即可实现。我们的数值实验表明，采用 K-TV 正则化训练的神经网络比传统参数正则化训练的神经网络更 “弹性”。所提出的算法还可以扩展至神经网络（PINNs）的物理知识训练。

Aug, 2023

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

关于超参数神经网络理论与实践之间的脱节

通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Sep, 2023

量化神经网络的训练：深入理解

本篇论文研究了深度神经网络的低精度模型的训练方法，探讨了在小型设备上训练深度神经网络的难点，提出了一种理论视角下的量化训练方法，并探索了非凸问题下的算法行为模型。

Jun, 2017