深度平衡模型

Sep, 2019

Deep Equilibrium Models

Shaojie Bai, J. Zico Kolter, Vladlen Koltun

TL;DR本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型，并比较其在大规模语言模型任务上的性能，该方法可通过求解根来直接获取固定点，训练和预测所需的内存只需常数级别，大大减少了存储消耗。

Abstract

We present a new approach to modeling sequential data: the deep equilibrium model (DEQ). Motivated by an observation that the hidden layers of many existing deep sequence models converge towards some fixed point, we propose the DEQ approach that directly finds these equilibrium points

deep equilibrium model sequential data root-finding language modeling memory consumption

发现论文，激发创造

深度平衡模型的高效训练

本篇文章介绍了一个简单而有效的策略，通过 Broyden's Method 的 Jacobian 估计来避免 DEQ 网络层的反向传播过程中需要解决的昂贵 Jacobian-based 方程。实验证明，仅通过再次使用此估计，就能显著加速训练同时不会导致任何性能退化。

Apr, 2023

通过雅各比正则化稳定平衡模型

本文提出一种正则化方案来加强深度均衡网络（DEQ）模型的学习稳定性，该正则化方案显著提高了 DEQ 模型的收敛速度和性能，使得 DEQ 模型与传统深度网络在速度和性能上保持相当，并且具有恒定的内存占用和简单的架构。

Jun, 2021

TorchDEQ：深度均衡模型库

这篇研究论文介绍了一种称为 Deep Equilibrium (DEQ) 模型的隐式模型新类别，并提出了 TorchDEQ 库，该库能够在多个领域上定义、训练和推断使用 DEQ 模型，通过结合最佳实践，显著提高了 DEQ 模型在十个数据集上的性能、训练稳定性和效率。

Oct, 2023

多尺度深度平衡模型

我们提出了一种新的隐式网络类别，即多尺度深度平衡模型（MDEQ），适用于大规模高度分层的模式识别领域。这种方法可以同时解决多个特征维度的平衡点，并且可以用于多种任务和损失函数，例如使用单个 MDEQ 同时执行图像分类和语义分割。在 ImageNet 分类和 Cityscapes 数据集高分辨率图像的语义分割任务上，我们展示了此方法的有效性。

Jun, 2020

正凸深层均衡模型

通过引入一种名为正凹深度平衡 (pcDEQ) 模型的新型 DEQ 模型类，通过基于非线性 Perron-Frobenius 理论的方法强制非负权重和激活函数，可以简化训练过程并且保证了固定点的存在和唯一性，进而解决了 DEQ 模型存在的固定点唯一性和收敛性问题，实验证明了 pcDEQ 模型在隐式模型中的竞争力。

Feb, 2024

深度平衡模型对抗鲁棒性的更深入探究

使用中间梯度的方法对 Deep Equilibrium Models 进行白盒攻击与评估，提高了其对抗攻击的鲁棒性，实验证明其在 CIFAR-10 数据集上的性能与同等规模的深度神经网络竞争力相当。

Jun, 2023

学习鲁棒的深度平衡模型

本篇论文中，我们提出了一种新的深度学习模型，称为 LyaDEQ，通过 Lyapunov 稳定性理论，确保了 DEQ 模型的稳定性，并可以在面对初始扰动时保持其鲁棒性。我们对这种模型进行了评估，并在针对不同数据集的对抗攻击中展示了其在对抗防御方面的显着改进。

Apr, 2023

深度均衡模型遇见联邦学习

本研究探讨了利用 Deep Equilibrium（DEQ）模型而不是传统的深度学习网络来解决联邦学习（FL）问题的新视角。我们声称将 DEQ 模型纳入联邦学习框架中，自然解决了 FL 中的若干开放问题，例如由于共享大型模型而产生的通信开销，以及能够并入具有显著不同计算能力的异构边缘设备。此外，在 FL 框架的服务器端提出了一种加权平均融合规则，以考虑来自异构边缘设备的不同模型质量。据我们所知，本研究是第一个建立 DEQ 模型和联邦学习之间联系的研究，对于开发高效而有效的 FL 框架做出了贡献。最后，我们给出有前途的初始实验结果，证明了这种方法在解决 FL 挑战方面的潜力。

May, 2023

深度均衡模型与不那么深的显式模型在高维高斯混合模型中几乎等效

使用随机矩阵理论，对深度平衡模型的特征频谱进行深入分析，证明了隐式 CK 和 NTK 的谱行为取决于激活函数和初始权重方差，从而可以通过一个浅层显式网络来设计出相同的 CK 或 NTK。

Feb, 2024

流式多尺度深度平衡模型

StreamDEQ 是一种使用隐式层模型连续推断每帧视频表示且利用先前帧的表示作为初始条件的方法，通过实验证明，StreamDEQ 在几帧的实验时间内准确地恢复了近乎最优的表示，并且可以在视频显示期间保持最新的表示。

Apr, 2022