关于训练循环神经网络的收敛速率
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
本文提出一种新的循环神经网络正则化方法,通过在 extit{循环} 链接中直接删除神经元来实现,并且不会丢失长期记忆,实验证明,该方法即使与传统的前馈dropout相结合,也能在自然语言处理基准测试中取得一致的改进。
Mar, 2016
通过实验证实了,所有常见的递归神经网络在仔细训练后达到了近乎相同的任务能力和单元容量边界,而许多以前的结果比较不同的递归神经网络结构主要是由于训练效果的差异而不是由于容量的差异驱动的。同时,作者还提出了两个新的递归神经网络结构,其中一个对于深度堆叠结构的训练比LSTM或GRU更容易。
Nov, 2016
通过本研究,我们证明预训练网络以实现本地稳定性在复杂结构的网络中是有效的,并提出了一种称为本地稳定条件(LSC)的理论,它能最小化对数据和参数分布的假设。我们的实验结果表明,通过预训练满足LSC的前馈和递归网络通常能够提高最终性能。这项研究为实现任意复杂度的网络的稳定性提供了一种方法,该方法可以在大型增强数据集的预训练之前作为附加步骤,也可以作为在分析上找到稳定的初始状态的替代方法。
Aug, 2023
开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大,递归神经网络(RNN)的渐近特性。通过研究联合随机代数方程的无穷维ODE的解,我们证明了简化权重矩阵的RNN收敛到一个无穷维ODE的解与固定点耦合。这项分析需要解决针对RNN独特的几个挑战,而标准的均场技术无法应用于RNN,因此我们开发了一种用于RNN记忆状态演进的固定点分析方法,并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时,这些数学方法导致了RNN在数据序列上训练时的神经切向核(NTK)极限。
Aug, 2023
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
卷积神经网络的近似和学习能力的研究,证明了满足权重约束的卷积神经网络的新逼近界限,并给出了覆盖神经网络的新分析,从而得到了更好的收敛界限,并利用这两个结果在许多学习问题中推导了基于卷积神经网络的估计器的收敛速度,对于学习平滑函数的非参数回归设置和二元分类中的卷积神经网络分类器的Hinge损失和Logistic损失,得到了最优的收敛速度。
Mar, 2024
神经网络可以划分为两种广义类别,递归和非递归。本文认为这两种神经网络类型之间存在比通常意识到的更为密切的关系,并阐述了其中的迭代映射关系。这种关系不仅限于理论上的Turing完全性,更涉及神经网络的训练和实践等方面的深入洞察。
Apr, 2024