随机神经网络的路径积分方法

Sep, 2018

Path Integral Approach to Random Neural Networks

A. Crisanti, H. Sompolinsky

TL;DR通过使用路径积分的系统方法，我们研究了大尺寸随机神经网络的动态，除了推导动态均场方程，计算系统的李雅普诺夫指数，还首次计算了均值场方程波动谱，并从中推导出参数的稳定性条件及系统的有限尺度修正。

Abstract

In this work we study of the dynamics of large size random neural networks. Different methods have been developed to analyse their behavior, most of them rely on heuristic methods based on Gaussian assumptions regarding the fluctuations in the limit of infinite sizes. These approaches,

random neural networks mean field equations finite size corrections path integrals lyapunov exponent

发现论文，激发创造

通用随机神经网络的动力学均场理论介绍

介绍了一种名为 DMFT 的物理工具，并使用通用随机神经网络作为例子，展示了 DMFT 的本质和基础物理。同时，同时讨论了相应的变体方法，比如动态空腔方法，并且详细介绍了求解 DMFT 方程的数值实现以及相关的应用和研究。

May, 2023

自注意力神经网络的动力学平均场理论

使用非平衡 Hopfield 网络的路径积分方法研究了变压器网络的动力学规律，发现了与混沌分叉相关的非平衡相变等非平凡的动力学现象，并讨论了这种分析方法改善对变压器模型内部运作理解的潜力。

Jun, 2024

神经网络的平均场分析：中心极限定理

本文通过随机分析弱收敛方法证明单层神经网络模型在隐藏单元数量和随机梯度下降迭代次数均较大时存在中心极限定理；结果表明网络在平均场极限周围的波动符合高斯分布，并且满足一些随机偏微分方程。

Aug, 2018

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019

多层神经网络均值场极限的严格框架

本研究发展了多层神经网络的数学严格框架，探究其在平均场条件下的学习轨迹，并证明了一些神经网络的性质，包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。

Jan, 2020

深度神经网络的平均场分析

通过确定性的积分微分方程建模，研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为，证明任何隐藏层数目下的极限行为，并在合适的激活函数和行为的假设下，表明极限神经网络可恢复全局最小值（目标函数无损失）

Mar, 2019

神经网络的平均场分析：大数定律

本文研究了神经网络的随机分析，通过解决技术上的一些难点，证明了在大规模网络和大规模随机梯度下降训练迭代的渐近情况下，神经网络参数的经验分布收敛于一个非线性偏微分方程的解，此结果可以被认为是神经网络的大数定律。此外，我们的分析结果发现神经网络的训练参数渐近独立，这被称为 “混沌传播” 性质。

May, 2018

神经平均场动力学的网络扩散

本文提出了一种基于神经平均场动力学的新型学习框架，用于解决网络扩散的推理和估计问题，该框架利用 Mori-Zwanzig 形式主义从节点感染概率的精确演化获得，形成一个高度结构化和可解释的 RNN，可用于联合学习扩散网络的结构和感染概率的演化，这是影响最大化等重要下游应用的基石。此外，本文还建立了参数学习和最优控制之间的联系。实证研究表明，我们的方法具有多样性和鲁棒性，可以在合成数据和真实世界数据上显著优于现有方法的准确性和效率。

Jun, 2020

均场剩余网络：朝向混沌的边缘

本研究旨在证明，通过添加跳跃连接，残差网络将采用基于解析方法确定的次指数正向和反向动态，从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证，Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。

Dec, 2017

通过松弛最优控制的均场神经 ODE

本文介绍了一种基于控制论、深度学习和统计抽样理论的框架，来研究深度神经网络和神经 ODE 模型，包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题，并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。

Dec, 2019