本篇文章介绍了一个简单而有效的策略,通过 Broyden's Method 的 Jacobian 估计来避免 DEQ 网络层的反向传播过程中需要解决的昂贵 Jacobian-based 方程。实验证明,仅通过再次使用此估计,就能显著加速训练同时不会导致任何性能退化。
Apr, 2023
这篇文章提出了一种基于 Deep Equilibrium Models 的方案,通过无限循环的迭代,不断提高图像逆问题的重建精度,同时在测试时可以根据不同场景的需求选择不同的计算预算以优化精度和计算的权衡。
Feb, 2021
本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型,并比较其在大规模语言模型任务上的性能,该方法可通过求解根来直接获取固定点,训练和预测所需的内存只需常数级别,大大减少了存储消耗。
Sep, 2019
本文分析了 ReLU 激活的隐式神经网络的梯度流,证明了如果隐式神经网络是超参数化的,那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值,这一结果与有限层参数超过的神经网络的收敛结果不同,因为本文的结论适用于无限层的神经网络。
Oct, 2021
本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下,神经网络可以展现出增量学习能力,且通过实验证明在使用深度学习模型中,梯度下降算法有助于寻找简单的模型解。
本研究探讨深度神经网络通过对隐含凸函数的 Proximal 操作构建 Optimization Induced Equilibrium Networks (OptEq) 的平衡点是否能作为优化问题的解,进而引入先验属性以便优化设计深度模型。该研究发现优化辅助设计的 OptEq 优于以往的隐式模型,是设计深度模型的重要一步。
May, 2021
本论文探讨深度学习模型的深度与优化之间的关系,通过对过度参数化模型的研究,发现适度的增加模型层数可以作为预处理器减轻优化量,加速模型的训练。
Feb, 2018
本论文提出了一种新的策略来解决双重问题在计算上的瓶颈,该方法通过使用前向传递中的拟牛顿矩阵来有效地近似计算需要梯度的反向传递中的逆雅各比矩阵,从而降低了计算成本。该方法在超参数优化问题上具有显著优势,并且在规模更大的问题上与 Jacobian-free 方法一样具有可比性能。
Jun, 2021
隐式深度学习预测规则推广了前馈神经网络的递归规则。这种规则基于涉及单个隐含特征向量的不动点方程的解,因此只是隐式定义的。隐式框架极大地简化了深度学习的符号表示,并在新体系结构和算法、稳健性分析和设计、可解释性、稀疏性和网络架构优化等方面开辟了许多新的可能性。
Aug, 2019
这篇研究论文介绍了一种称为 Deep Equilibrium (DEQ) 模型的隐式模型新类别,并提出了 TorchDEQ 库,该库能够在多个领域上定义、训练和推断使用 DEQ 模型,通过结合最佳实践,显著提高了 DEQ 模型在十个数据集上的性能、训练稳定性和效率。
Oct, 2023