稳定时域反向传播以学习复杂物理

ICLRMay, 2024

稳定时域反向传播以学习复杂物理

Stabilizing Backpropagation Through Time to Learn Complex Physics

Patrick Schnell, Nils Thuerey

TL;DR借鉴物理模拟的平衡梯度流和修改反向传播的方法，提出了改进梯度场优化的替代向量场，实现精确控制信号并解决复杂任务。

Abstract

Of all the vector fields surrounding the minima of recurrent learning setups, the gradient field with its exploding and vanishing updates appears a poor choice for →

vector fields gradient field physics simulations backpropagation optimization

发现论文，激发创造

推广平衡传播至矢量场动态

该论文探讨了反向传播算法的生物学可信度以及提出了一种基于平衡传导法、解决了双向信号问题和对称连接问题的前向和后向连接的学习方法。

Aug, 2018

半反向梯度用于物理深度学习

本研究分析了物理和神经网络的优化特征，并结合了经典网络和物理优化器的原则，基于 Jacobian 的半反演提出一种新方法，比目前最先进的神经网络优化器更快地收敛并产生更好的解决方案，此方法在非线性振荡器，Schroedinger 方程和泊松问题的三个复杂学习问题上得到了验证。

Mar, 2022

信号传播的几何动力学预测 Transformer 的可训练性

深度随机初始化的 transformer 中的前向信号传播和梯度反向传播进行了研究，得出了初始化超参数的简单必要和充分条件，以确保 transformer 的可训练性。

Mar, 2024

正向梯度匹配反向传播？

本研究提出了一种使用反馈获得的局部辅助网络实现前向梯度方法的优化方案，能够显著改善标准计算机视觉神经网络中前向梯度方法中由步长难以猜测所需付出的代价。

Jun, 2023

随机反向传播权重的梯度下降的收敛和对齐

该论文研究 “反馈对齐” 算法的数学特性，通过分析二层网络在平方误差损失下的收敛和对齐，证明在过度参数化的情况下，误差会以指数速度收敛，以及参数对齐需要正则化。该成果对我们理解生物学可行的算法如何不同于 Hebbian 学习方法，具有与非本地反向传播算法相当的性能提供了方法。

Jun, 2021

将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Jan, 2013

用于优化算法的随机前向模式自动微分

神经网络的反向传播过程利用了自动微分的基本要素，通过前向模式的自动微分或 Jacobian 向量乘积 (JVP) 来计算损失函数的方向导数，并使用随机采样的不同概率分布计算这些方向导数，本文对这些方法进行了严格的分析并给出了收敛速率，同时还进行了在科学机器学习中部署的计算实验，特别是应用于物理信息神经网络和深度算子网络。

Oct, 2023

理解并减轻物理启示神经网络中的梯度病理

本文回顾了科学机器学习的最新进展，特别关注物理启发式神经网络在预测物理系统结果和从噪声数据中发现隐藏的物理方面的有效性。我们提出了一个神经网络体系结构，该结构对梯度病理具有更强的鲁棒性，并提出了一个学习率退火算法，通过使用模型训练期间的梯度统计数据来平衡复合损失函数中不同项之间的相互作用。所有伴随本手稿的代码和数据都是公开可用的。

Jan, 2020

梯度抛光：通过动态控制雅可比矩阵来改进梯度下降

通过调节 Lyapunov 指数来稳定梯度并提高循环神经网络 (RNN) 训练的有效性，减缓梯度爆炸和梯度消失问题。

Dec, 2023

LSTM 和 GRU 的动态同构和平均场理论

本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播，通过优化初始化超参数，开发出了一种新的初始化方案，解决了训练不稳定性问题，从而在多个序列任务上实现了成功的训练，并且在泛化能力上也有积极的影响。

Jan, 2019