本文分析了 ReLU 激活的隐式神经网络的梯度流,证明了如果隐式神经网络是超参数化的,那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值,这一结果与有限层参数超过的神经网络的收敛结果不同,因为本文的结论适用于无限层的神经网络。
Oct, 2021
本文介绍了深度线性网络的非局部收敛分析,特别是考虑具有一个神经元层的深度线性网络,其收敛点在梯度流下产生的任意起点轨迹上,包括收敛到鞍点或原点之一的路径,本文通过扩展 Eftekhari 的工作,以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。
Jan, 2022
本研究探讨深度神经网络通过对隐含凸函数的 Proximal 操作构建 Optimization Induced Equilibrium Networks (OptEq) 的平衡点是否能作为优化问题的解,进而引入先验属性以便优化设计深度模型。该研究发现优化辅助设计的 OptEq 优于以往的隐式模型,是设计深度模型的重要一步。
May, 2021
本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛,并阐述了相应的研究内容,包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。
Jun, 2020
证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
Jun, 2018
本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下,神经网络可以展现出增量学习能力,且通过实验证明在使用深度学习模型中,梯度下降算法有助于寻找简单的模型解。
Sep, 2019
本文基于亚向同调算子和非线性 Perron-Frobenius 理论,对隐式深度神经网络的不动点的存在性和唯一性进行了新的分析。相较于先前的类似分析,我们的理论对参数矩阵的假设更弱,从而为隐式网络提供了更灵活的框架。我们通过前馈、卷积和图神经网络示例展示了所得到的亚向同调网络的性能。
Mar, 2024
本文研究基于深度平衡方法的成像和其他逆问题求解方法中的正则化问题,通过提供稳定性和收敛性结果及对称 Bregman 距离的收敛率和稳定性估计来解决这一问题,并使用此分析来设计一种新的损失函数及证明解的性能下界。
Jun, 2023
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型,并比较其在大规模语言模型任务上的性能,该方法可通过求解根来直接获取固定点,训练和预测所需的内存只需常数级别,大大减少了存储消耗。