量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述,导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时,动力学从冻结核相位变为冻结误差相位,显示了量子神经正切核和总误差之间的二元性。在两个相位中,对于固定点的收敛是指数级的,而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian,揭示了相变的本质是二阶的,指数 ν=1,表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。
Nov, 2023
本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态,并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解,为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。
May, 2018
通过分析神经网络在学习线性动力系统时的训练动态,我们发现在数据分布和权重初始化方案等方面可能会导致不稳定性和学习困难,并提出了相关的缓解策略。同时,我们探讨了离散时间和连续时间动力系统学习之间的重要区别以及对非线性系统的拓展。
Jun, 2024
通过分析网络轨迹和学习过程中的动力学特性,研究了浅层神经网络在简单分类任务中的演化过程,发现不同学习速率下的动力学和轨道稳定性,这一发现与神经网络和动力学系统理论的常见智慧相对照,为动力系统理论、网络理论和机器学习之间的相互交流提供了贡献。
Apr, 2024
本文提出了一个名为 “隐藏流形模型” 的生成模型,证明了随机梯度下降算法训练的两层神经网络表现的动态可以通过 Integro-differential 方程组进行跟踪,同时分析了神经网络训练过程中神经网络学习增加复杂度和提高性能的方式以及受其大小、学习率和隐藏流形维度等参数的影响。
Sep, 2019
本文介绍了一种新的神经网络模型 —— 随机循环神经网络,该模型能高效地传播潜在状态的不确定性来构建序列神经生成模型,并在语音和音乐建模方面取得了比同类方法更好的结果。
May, 2016
通过黑盒模拟器控制预测,修正模型匹配错误的混合建模新方法。
Sep, 2023
本文研究了基于变压器的模型在使用马尔科夫输入过程研究的背景下,关于学习马尔科夫链的变压器的学习动态的问题,并通过理论和实证研究提供了初始化变压器参数的准则和其有效性的验证。
利用隐马尔可夫模型(HMM)对端到端神经网络训练进行新颖的建模方法进行研究,该方法中隐藏状态之间的转移概率被显式建模和学习,通过 GPU 加速的前向后向算法实现标签和转移概率的同时训练,结果显示转移模型训练并不能提高识别性能,但对齐质量有积极影响,生成的对齐可用于最先进的维特比训练。
Oct, 2023
本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播,通过优化初始化超参数,开发出了一种新的初始化方案,解决了训练不稳定性问题,从而在多个序列任务上实现了成功的训练,并且在泛化能力上也有积极的影响。
Jan, 2019