深度学习的速度限制

Jul, 2023

Speed Limits for Deep Learning

Inbar Seroussi, Alexander A. Alemi, Moritz Helias, Zohar Ringel

TL;DR神经网络训练需要极高的计算能力，本文应用了随机热力学近期的进展来界定训练网络从初始权重分布转化为完全训练好的网络的速度上限，针对线性和可线性的神经网络提供了这些速度上限的解析表达式，发现在一些合理的缩放假设下，学习是在缩放意义上最优的，与卷积神经网络和全连接神经网络的实验结果相一致。

Abstract

State-of-the-art neural networks require extreme computational power to train. It is therefore natural to wonder whether they are optimally train

neural networks computational power optimally trained stochastic thermodynamics learning optimization

发现论文，激发创造

深度神经网络中特征和懒惰训练的解耦

该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究，发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同，并提出了一种中间状态下集合平均方法可以提高性能。

Jun, 2019

深度神经网络中可训练性和泛化能力的分离

本文通过分析神经核算法的光谱，提供了对于训练和推广条件的表征，特别地，在讨论极深和宽的神经网络时，发现神经核数仅仅维持有限的数据相关性，并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广；同时，与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。

Dec, 2019

深度学习与核学习：损失函数梯度与神经切向核的时间演变的实证研究

在深度神经网络训练中，训练动力学与损失面的几何形态和时空变化紧密关联，揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。

Oct, 2020

神经网络早期学习动力学的出乎意料的简单性

本文证明，对于一类良好行为的输入分布，一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核（NTK）和数据核的仿射变换之间的谱范数差异来赋值。我们还表明，这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在，验证了这一点。

Jun, 2020

共享权重的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切向核导出

本研究结合随机神经网络和张量程序的概念，研究了神经网络的收敛性和梯度动态性，在多种不同体系下，从而表明了该框架不仅可以引导更强的高斯过程的设计，而且还可以深入理解现代架构中的 SGD 动态。

Feb, 2019

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023

软委员会机器的统计物理学和实践培训

通过 replica formalism，研究了具有可微激活函数和单个线性输出单元的大型分层神经网络的平衡状态。在学习完全匹配复杂度规则的非常多的隐藏单元的学生网络的基础上，计算了定量的冻结自由能，发现系统在训练集的临界大小下从不专业化到专业化的学生配置的一级相变。通过固定的训练集进行随机梯度下降的计算机模拟表明，平衡结果在实际训练过程中的平台状态中得到了定量描述。

Dec, 1998

深度宽神经网络的统计最优性

本文研究了深度神经网络的泛化能力问题，探讨了其与神经切向核回归的关系，并分析了核的谱性质，得出了多层宽神经网络使用梯度下降等算法在早期停止时能够获得最佳性能的结论。

May, 2023

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019

递归神经网络在符合遍历性数据序列上训练的核极限

开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大，递归神经网络（RNN）的渐近特性。通过研究联合随机代数方程的无穷维 ODE 的解，我们证明了简化权重矩阵的 RNN 收敛到一个无穷维 ODE 的解与固定点耦合。这项分析需要解决针对 RNN 独特的几个挑战，而标准的均场技术无法应用于 RNN，因此我们开发了一种用于 RNN 记忆状态演进的固定点分析方法，并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时，这些数学方法导致了 RNN 在数据序列上训练时的神经切向核（NTK）极限。

Aug, 2023