训练动力学的潜在状态模型

Aug, 2023

Latent State Models of Training Dynamics

Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho

TL;DR模型训练中随机性的影响，如何解释数据顺序和初始化的差异，以及如何解读训练动态和不同轨迹所特征的相变，使用隐马尔可夫模型对神经网络训练过程进行建模，研究相变和减速收敛的潜在 “绕道” 状态。

Abstract

The impact of randomness on model training is poorly understood. How do differences in data order and initialization actually manifest in the model, such that some training runs outperform others or converge fast

randomness model training neural network hidden markov model phase transitions

发现论文，激发创造

大深度量子神经网络中的动力学相变

量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述，导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时，动力学从冻结核相位变为冻结误差相位，显示了量子神经正切核和总误差之间的二元性。在两个相位中，对于固定点的收敛是指数级的，而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian，揭示了相变的本质是二阶的，指数 ν=1，表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。

Nov, 2023

学习的动态性：一种随机矩阵方法

本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态，并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解，为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。

May, 2018

神经网络物理模拟器中的不稳定性问题

通过分析神经网络在学习线性动力系统时的训练动态，我们发现在数据分布和权重初始化方案等方面可能会导致不稳定性和学习困难，并提出了相关的缓解策略。同时，我们探讨了离散时间和连续时间动力系统学习之间的重要区别以及对非线性系统的拓展。

Jun, 2024

人工神经网络轨迹的动力稳定性与混沌

通过分析网络轨迹和学习过程中的动力学特性，研究了浅层神经网络在简单分类任务中的演化过程，发现不同学习速率下的动力学和轨道稳定性，这一发现与神经网络和动力学系统理论的常见智慧相对照，为动力系统理论、网络理论和机器学习之间的相互交流提供了贡献。

Apr, 2024

神经网络中数据结构对学习的影响建模：隐藏流形模型

本文提出了一个名为 “隐藏流形模型” 的生成模型，证明了随机梯度下降算法训练的两层神经网络表现的动态可以通过 Integro-differential 方程组进行跟踪，同时分析了神经网络训练过程中神经网络学习增加复杂度和提高性能的方式以及受其大小、学习率和隐藏流形维度等参数的影响。

Sep, 2019

具有随机层的序列神经模型

本文介绍了一种新的神经网络模型 —— 随机循环神经网络，该模型能高效地传播潜在状态的不确定性来构建序列神经生成模型，并在语音和音乐建模方面取得了比同类方法更好的结果。

May, 2016

利用模拟器提供的潜在状态学习混合动力学模型

通过黑盒模拟器控制预测，修正模型匹配错误的混合建模新方法。

Sep, 2023

从局部到全局：学习 Transformer 的动力学和初始化效果

本文研究了基于变压器的模型在使用马尔科夫输入过程研究的背景下，关于学习马尔科夫链的变压器的学习动态的问题，并通过理论和实证研究提供了初始化变压器参数的准则和其有效性的验证。

Jun, 2024

带有标签和转移概率的神经 HMM 的端到端训练

利用隐马尔可夫模型（HMM）对端到端神经网络训练进行新颖的建模方法进行研究，该方法中隐藏状态之间的转移概率被显式建模和学习，通过 GPU 加速的前向后向算法实现标签和转移概率的同时训练，结果显示转移模型训练并不能提高识别性能，但对齐质量有积极影响，生成的对齐可用于最先进的维特比训练。

Oct, 2023

LSTM 和 GRU 的动态同构和平均场理论

本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播，通过优化初始化超参数，开发出了一种新的初始化方案，解决了训练不稳定性问题，从而在多个序列任务上实现了成功的训练，并且在泛化能力上也有积极的影响。

Jan, 2019