本文开发了一种基于单调算子理论的新类别的内部层数模型,即单调算子平衡网络(monDEQ),通过带有保证和稳定收敛的高效求解器来解决难以稳定收敛和缺乏唯一解保证的传统的内部层数问题,该模型的参数化能确保所有算子保持单调性,从而保证存在独特的平衡点,并在多尺度卷积等结构化线性算子上实现了多个版本的这些模型,性能均明显优于基于神经 ODE 的模型,且更加高效。
Jun, 2020
本研究探讨深度神经网络通过对隐含凸函数的 Proximal 操作构建 Optimization Induced Equilibrium Networks (OptEq) 的平衡点是否能作为优化问题的解,进而引入先验属性以便优化设计深度模型。该研究发现优化辅助设计的 OptEq 优于以往的隐式模型,是设计深度模型的重要一步。
May, 2021
通过引入一种名为正凹深度平衡 (pcDEQ) 模型的新型 DEQ 模型类,通过基于非线性 Perron-Frobenius 理论的方法强制非负权重和激活函数,可以简化训练过程并且保证了固定点的存在和唯一性,进而解决了 DEQ 模型存在的固定点唯一性和收敛性问题,实验证明了 pcDEQ 模型在隐式模型中的竞争力。
Feb, 2024
本文基于深度平衡模型,分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态,证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解,同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。
Feb, 2021
本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型,并比较其在大规模语言模型任务上的性能,该方法可通过求解根来直接获取固定点,训练和预测所需的内存只需常数级别,大大减少了存储消耗。
Sep, 2019
本文提出一种正则化方案来加强深度均衡网络(DEQ)模型的学习稳定性,该正则化方案显著提高了 DEQ 模型的收敛速度和性能,使得 DEQ 模型与传统深度网络在速度和性能上保持相当,并且具有恒定的内存占用和简单的架构。
Jun, 2021
本篇文章介绍了一个简单而有效的策略,通过 Broyden's Method 的 Jacobian 估计来避免 DEQ 网络层的反向传播过程中需要解决的昂贵 Jacobian-based 方程。实验证明,仅通过再次使用此估计,就能显著加速训练同时不会导致任何性能退化。
Apr, 2023
这篇文章提出了一种基于 Deep Equilibrium Models 的方案,通过无限循环的迭代,不断提高图像逆问题的重建精度,同时在测试时可以根据不同场景的需求选择不同的计算预算以优化精度和计算的权衡。
使用随机矩阵理论,对深度平衡模型的特征频谱进行深入分析,证明了隐式 CK 和 NTK 的谱行为取决于激活函数和初始权重方差,从而可以通过一个浅层显式网络来设计出相同的 CK 或 NTK。
本研究提出了新的平衡神经网络参数化方法,该方法可以实现在训练期间的 Lipschitz bound 并提升强健性,并通过建立与凸优化、非欧几里得空间上的算子分裂和收缩神经微分方程的新连接来证明这些结果,在图像分类实验中表现出非常高的准确性和抵御对抗性攻击的能力。
Oct, 2020