张量程序 IVb：无限宽度极限下的自适应优化

ICLRAug, 2023

张量程序 IVb：无限宽度极限下的自适应优化

Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit

Greg Yang, Etai Littwin

TL;DR超越随机梯度下降（SGD），在 Adam 等自适应优化器训练的宽神经网络中出现了哪些新现象？我们展示了：与 SGD 中相同的特征学习和核行为二分法同样适用于各种优化器，包括 Adam—— 尽管使用了非线性的 “核” 概念。我们推导出了相应的任何架构的 “神经切线” 和 “最大更新” 的极限。上述结果的两个基础性突破是：1）一种新的张量程序语言 NEXORT，可以表达自适应优化器是如何将梯度转化为更新的。2）引入 bra-ket 表示法，以极大地简化张量程序中的表达和计算。本工作总结并概括了张量程序系列文章中的所有先前结果。

Abstract

Going beyond stochastic gradient descent (SGD), what new phenomena emerge in wide neural networks trained by adaptive optimizers like

stochastic gradient descent wide neural networks adaptive optimizers adam tensor programs

发现论文，激发创造

Tensor Programs IIb: 神经切向核训练动态的架构通用性

通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态，我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态，其中内核是无穷宽度 NTK，从而完整证明了 NTK 行为的结构普适性。

May, 2021

无限宽神经网络中的特征学习

研究表明，标准和 NTK 参数化的神经网络不能学习特征，这对于预训练和转移学习至关重要。通过修改标准参数化，使用 Tensor Programs 技术，我们计算了神经网络的极限，并发现其表现优于 NTK 基线和有限宽网络。

Nov, 2020

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

张量程序 II：任意结构神经切向核

本文证明了任何结构的随机初始化神经网络在网络宽度趋于无穷大时，都会使其 Tangent Kerne（NTK）收敛于确定性极限，并介绍了如何计算此极限。文章还提到了梯度独立假设（GIA）的常见满足条件 ——Simple GIA Check，并探讨了 GIA 的适用范围和限制。最后，文中给出了基于无限宽度 NTK 的可重复实现的循环神经网络、Transformer 和批归一化等各类网络模型的代码。

Jun, 2020

可微程序张量网络

本篇论文介绍了可微编程的概念，研究如何将张量网络算法编程为可完全微分，提出了稳定的张量分解自动微分方法和通过迭代固定点实现反向传播的技术，应用于 Ising 模型和 Heisenberg 模型，取得了较好的优化效果。

Mar, 2019

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019

关于超参数神经网络理论与实践之间的脱节

通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Sep, 2023

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

神经正切核：神经网络的收敛性和泛化性

本研究证明了在梯度下降算法中，人工神经网络的演化可以被表示为一种核函数，称为神经切向核。它在无限宽度下收敛于一个明确的极限核，并且在训练过程中保持不变，可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明，在无限宽度下，网络函数 $f_ heta$ 在训练期间遵循线性微分方程。最后，我们对神经切向核进行了数值研究，观察了其在宽网络中的行为，并将其与无限宽度的极限进行了比较。

Jun, 2018

关于雅可比正则化训练神经网络的无限宽度分析

该研究采用无穷宽度分析，证明了深度神经网络及其雅可比矩阵初始条件下，当隐藏层宽度趋近无穷时，它们共同收敛于高斯过程，并通过一种线性一阶常微分方程描述了在所谓鲁棒训练下的多层感知机演化，该方程由一种神经切向核的变体决定。实验证明了理论断言与宽有限网络的相关性，并通过核回归解析研究雅可比矩阵正则化的性质。

Dec, 2023