非线性动力系统学习的度量熵极限

Jul, 2024

非线性动力系统学习的度量熵极限

Metric-Entropy Limits on Nonlinear Dynamical System Learning

Yang Pan, Clemens Hutter, Helmut Bölcskei

TL;DR该研究论文主要讨论非线性动力系统学习的基本限制，以及循环神经网络在满足 Lipschitz 属性且以最佳度量 - 熵方式快速遗忘过去输入方面的应用，通过计算相关指标，证明了 RNN 可以实现指数衰减和多项式衰减 Lipschitz 的消退记忆系统。

Abstract

This paper is concerned with the fundamental limits of nonlinear dynamical system learning from input-output traces. Specifically, we show that recurrent neural networks (RNNs) are capable of learning nonlinear systems that satisfy a lipschitz property and forget past inputs fast enoug

nonlinear dynamical system learning recurrent neural networks lipschitz property metric-entropy fading-memory systems

发现论文，激发创造

利普希茨循环神经网络

本文提出采用连续时间动力学系统的视角看待循环神经网络（RNNs），并提出了一种描写隐藏状态演变的循环单元，该单元包含一个经过深思熟虑的线性组成部分和一个 Lipschitz 非线性组成部分来促进该单元的长期稳定性分析；并通过实验表明，Lipschitz RNN 在计算机视觉、语言建模和语音预测任务中的表现优于现有的循环单元；通过利用 Hessian 的分析证明我们的 Lipschitz 循环单元相对于其他连续时间 RNN 对输入和参数扰动更具稳健性。

Jun, 2020

递归神经网络在符合遍历性数据序列上训练的核极限

开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大，递归神经网络（RNN）的渐近特性。通过研究联合随机代数方程的无穷维 ODE 的解，我们证明了简化权重矩阵的 RNN 收敛到一个无穷维 ODE 的解与固定点耦合。这项分析需要解决针对 RNN 独特的几个挑战，而标准的均场技术无法应用于 RNN，因此我们开发了一种用于 RNN 记忆状态演进的固定点分析方法，并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时，这些数学方法导致了 RNN 在数据序列上训练时的神经切向核（NTK）极限。

Aug, 2023

神经网络的黎曼测度 II：循环网络和学习符号数据序列

该研究使用黎曼度量上的梯度上升法作为 RNN 的训练程序，实现了对文本的结构的有效捕捉。

Jun, 2013

非线性递归神经网络的逆近似理论

该研究提出了一种逆逼近定理，论证了使用 RNN 对非线性序列关系进行逼近的能力受到存储结构的限制，并提出了一种基于理论分析的重新参数化方法以克服这种限制。

May, 2023

可计算的树突状循环神经网络用于重构非线性动力学系统

本文介绍了一种基于线性样条基函数扩展动态可解释的分段线性循环神经网络（PLRNN）的方法，用于近似任意非线性动态系统。我们采用 BPTT 与教师强制以及快速可接受的变分推理两种框架对系统进行训练，并在各种动态系统基准测试上表明，这种方法具有更好的重建能力和更少的参数和尺寸。

Jul, 2022

递归神经网络的梯度下降的收敛性：非渐近分析

我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现，并证明了在没有大量过参数化的情况下，梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限，(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响，该界限依赖于激活函数的李普希茨连续性。值得注意的是，这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比，前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述，通过约束范数的传输映射，并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。

Feb, 2024

利普希茨算子的运算学习：信息论视角

基于神经算子的算子学习已成为一种有前景的通过数据驱动的方法，在无限维巴拿赫空间中进行算子近似。本研究针对利普希茨连续算子的神经算子近似的参数复杂性进行了探索，从信息论的角度建立了利普希茨算子的度量熵的下界，并指出神经算子架构的大小在达到近似精度 ε 时必须是指数级的。这项研究的结果阐明了基本的权衡和限制。

Jun, 2024

高维极限下非线性对比学习模型的训练动态

通过对单层非线性对比学习模型的训练动态进行高维度分析，本研究揭示了模型权重的经验分布收敛至由 McKean-Vlasov 非线性偏微分方程（PDE）所控制的确定性测度。在 L2 正则化的情况下，该 PDE 简化为一组封闭的低维常微分方程（ODEs），反映出模型在训练过程中性能的演变。我们分析了 ODEs 的固定点位置及其稳定性，揭示了几个有趣的发现。首先，只有隐藏变量的二阶矩影响到了在状态具有非信息性初始化时的特征可学习性。其次，更高阶矩通过控制吸引区域而影响到特征选择的概率，而不会影响局部稳定性。最后，添加到数据增强中的独立噪声会降低性能，而负相关的噪声则可以减少梯度估计的方差并提高性能。尽管该分析模型相当简单，但其呈现出丰富的训练动态现象，为理解实际大型模型背后的更复杂机制提供了一种途径。

Jun, 2024

带有 Perron-Frobenius 算子的非线性动力系统度量

本文通过在重现核希尔伯特空间中定义 Perron-Frobenius 算子，开发了一个用于比较非线性动力系统的通用度量，旨在解决模式识别和机器学习中长期存在的结构数据度量问题，并通过实例和真实时间序列数据进行了性能评估。

May, 2018

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023