关于隐式深度学习的理论：隐式层的全局收敛性

ICLRFeb, 2021

关于隐式深度学习的理论：隐式层的全局收敛性

On the Theory of Implicit Deep Learning: Global Convergence with Implicit Layers

Kenji Kawaguchi

TL;DR本文基于深度平衡模型，分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态，证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解，同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。

Abstract

A deep equilibrium model uses implicit layers, which are implicitly defined through an equilibrium point of an infinite sequence of computation. It avoids any explicit computation of the infinite sequence by find

deep equilibrium model implicit layers gradient dynamics non-convex objective functions implicit bias

发现论文，激发创造

深度 ReLU 隐式网络的全局收敛理论：基于过度参数化

本文分析了 ReLU 激活的隐式神经网络的梯度流，证明了如果隐式神经网络是超参数化的，那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值，这一结果与有限层参数超过的神经网络的收敛结果不同，因为本文的结论适用于无限层的神经网络。

Oct, 2021

具有单神经元层的深度线性网络的全局收敛分析

本文介绍了深度线性网络的非局部收敛分析，特别是考虑具有一个神经元层的深度线性网络，其收敛点在梯度流下产生的任意起点轨迹上，包括收敛到鞍点或原点之一的路径，本文通过扩展 Eftekhari 的工作，以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。

Jan, 2022

优化引发的平衡网络

本研究探讨深度神经网络通过对隐含凸函数的 Proximal 操作构建 Optimization Induced Equilibrium Networks (OptEq) 的平衡点是否能作为优化问题的解，进而引入先验属性以便优化设计深度模型。该研究发现优化辅助设计的 OptEq 优于以往的隐式模型，是设计深度模型的重要一步。

May, 2021

深度学习中的方向收敛和对齐

本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛，并阐述了相应的研究内容，包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。

Jun, 2020

学习深度同质模型中的算法正则化：层次自动平衡

证明了通过梯度下降（以及正步长）学习多层同质函数时，该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变，从而自动平衡所有层的大小，由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。

Jun, 2018

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

次齐深度均衡模型

本文基于亚向同调算子和非线性 Perron-Frobenius 理论，对隐式深度神经网络的不动点的存在性和唯一性进行了新的分析。相较于先前的类似分析，我们的理论对参数矩阵的假设更弱，从而为隐式网络提供了更灵活的框架。我们通过前馈、卷积和图神经网络示例展示了所得到的亚向同调网络的性能。

Mar, 2024

反问题的平衡方法的收敛分析

本文研究基于深度平衡方法的成像和其他逆问题求解方法中的正则化问题，通过提供稳定性和收敛性结果及对称 Bregman 距离的收敛率和稳定性估计来解决这一问题，并使用此分析来设计一种新的损失函数及证明解的性能下界。

Jun, 2023

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

深度平衡模型

本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型，并比较其在大规模语言模型任务上的性能，该方法可通过求解根来直接获取固定点，训练和预测所需的内存只需常数级别，大大减少了存储消耗。

Sep, 2019