梯度抛光:通过动态控制雅可比矩阵来改进梯度下降
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在 0.74 到 0.98 之间。
May, 2024
我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法,以在保持范数的情况下更新线性变换,并使用绝对值函数作为逐元素非线性,以在整个网络上保持反向传播信号的范数。实验证明,该重新参数化方法在保持相同算法复杂度的情况下,优于具有正交初始值的标准循环神经网络和长短期记忆网络。
Dec, 2016
通过本研究,我们证明预训练网络以实现本地稳定性在复杂结构的网络中是有效的,并提出了一种称为本地稳定条件(LSC)的理论,它能最小化对数据和参数分布的假设。我们的实验结果表明,通过预训练满足 LSC 的前馈和递归网络通常能够提高最终性能。这项研究为实现任意复杂度的网络的稳定性提供了一种方法,该方法可以在大型增强数据集的预训练之前作为附加步骤,也可以作为在分析上找到稳定的初始状态的替代方法。
Aug, 2023
本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播,通过优化初始化超参数,开发出了一种新的初始化方案,解决了训练不稳定性问题,从而在多个序列任务上实现了成功的训练,并且在泛化能力上也有积极的影响。
Jan, 2019
本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题,使用正交矩阵作为约束条件以保持梯度范数,并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析,本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。
Jan, 2017
本文提出了一种名为 “反馈梯度下降(FGD)” 的新方法,该方法基于在 Stiefel 流形的切空间上连续动力系统的 Euler 离散化,同时高效性和稳定性皆优于现有最先进方法,在大量图像分类实验中表现卓越。
May, 2022
本研究提出了自正则化流的概念,通过使用每一层中的学习近似反演,将昂贵的项替换为其梯度的自我正则化流,实现了流架构的培训,同时提供了高效的采样方法。实验表明,这些模型具有显著的稳定性,并优于在计算中限制函数的模型。
Nov, 2020
运用遍历理论引入机器学习的新型训练方式,强制实现系统中的动力学不变量,以提高在有限数据情况下对混沌动力学系统的长期预测能力,用回声状态网络体系结构进行演示,并以 Lorenz1996 混沌动力学系统和光谱拟地转模型为测试案例,取得了丰硕成果。
Apr, 2023
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024