非线性动力系统学习的度量熵极限
本文提出采用连续时间动力学系统的视角看待循环神经网络(RNNs),并提出了一种描写隐藏状态演变的循环单元,该单元包含一个经过深思熟虑的线性组成部分和一个 Lipschitz 非线性组成部分来促进该单元的长期稳定性分析;并通过实验表明,Lipschitz RNN 在计算机视觉、语言建模和语音预测任务中的表现优于现有的循环单元;通过利用 Hessian 的分析证明我们的 Lipschitz 循环单元相对于其他连续时间 RNN 对输入和参数扰动更具稳健性。
Jun, 2020
开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大,递归神经网络(RNN)的渐近特性。通过研究联合随机代数方程的无穷维 ODE 的解,我们证明了简化权重矩阵的 RNN 收敛到一个无穷维 ODE 的解与固定点耦合。这项分析需要解决针对 RNN 独特的几个挑战,而标准的均场技术无法应用于 RNN,因此我们开发了一种用于 RNN 记忆状态演进的固定点分析方法,并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时,这些数学方法导致了 RNN 在数据序列上训练时的神经切向核(NTK)极限。
Aug, 2023
该研究提出了一种逆逼近定理,论证了使用 RNN 对非线性序列关系进行逼近的能力受到存储结构的限制,并提出了一种基于理论分析的重新参数化方法以克服这种限制。
May, 2023
本文介绍了一种基于线性样条基函数扩展动态可解释的分段线性循环神经网络(PLRNN)的方法,用于近似任意非线性动态系统。我们采用 BPTT 与教师强制以及快速可接受的变分推理两种框架对系统进行训练,并在各种动态系统基准测试上表明,这种方法具有更好的重建能力和更少的参数和尺寸。
Jul, 2022
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
基于神经算子的算子学习已成为一种有前景的通过数据驱动的方法,在无限维巴拿赫空间中进行算子近似。本研究针对利普希茨连续算子的神经算子近似的参数复杂性进行了探索,从信息论的角度建立了利普希茨算子的度量熵的下界,并指出神经算子架构的大小在达到近似精度 ε 时必须是指数级的。这项研究的结果阐明了基本的权衡和限制。
Jun, 2024
通过对单层非线性对比学习模型的训练动态进行高维度分析,本研究揭示了模型权重的经验分布收敛至由 McKean-Vlasov 非线性偏微分方程(PDE)所控制的确定性测度。在 L2 正则化的情况下,该 PDE 简化为一组封闭的低维常微分方程(ODEs),反映出模型在训练过程中性能的演变。我们分析了 ODEs 的固定点位置及其稳定性,揭示了几个有趣的发现。首先,只有隐藏变量的二阶矩影响到了在状态具有非信息性初始化时的特征可学习性。其次,更高阶矩通过控制吸引区域而影响到特征选择的概率,而不会影响局部稳定性。最后,添加到数据增强中的独立噪声会降低性能,而负相关的噪声则可以减少梯度估计的方差并提高性能。尽管该分析模型相当简单,但其呈现出丰富的训练动态现象,为理解实际大型模型背后的更复杂机制提供了一种途径。
Jun, 2024
本文通过在重现核希尔伯特空间中定义 Perron-Frobenius 算子,开发了一个用于比较非线性动力系统的通用度量,旨在解决模式识别和机器学习中长期存在的结构数据度量问题,并通过实例和真实时间序列数据进行了性能评估。
May, 2018
通过引入基于熵的损失项,我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示,在更少的维度上收敛于更好的测试指标,并在图像压缩和图像分类的实验中展示了其有效性。
Aug, 2023