递归神经网络的梯度下降的收敛性: 非渐近分析

Feb, 2024

递归神经网络的梯度下降的收敛性: 非渐近分析

Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis

Semih Cayci, Atilla Eryilmaz

TL;DR我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现，并证明了在没有大量过参数化的情况下，梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限，(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响，该界限依赖于激活函数的李普希茨连续性。值得注意的是，这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比，前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述，通过约束范数的传输映射，并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。

Abstract

We analyze recurrent neural networks trained with gradient descent in the supervised learning setting for dynamical systems, and prove tha