本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型,并比较其在大规模语言模型任务上的性能,该方法可通过求解根来直接获取固定点,训练和预测所需的内存只需常数级别,大大减少了存储消耗。
Sep, 2019
本文提出一种正则化方案来加强深度均衡网络(DEQ)模型的学习稳定性,该正则化方案显著提高了 DEQ 模型的收敛速度和性能,使得 DEQ 模型与传统深度网络在速度和性能上保持相当,并且具有恒定的内存占用和简单的架构。
Jun, 2021
本篇论文中,我们提出了一种新的深度学习模型,称为 LyaDEQ,通过 Lyapunov 稳定性理论,确保了 DEQ 模型的稳定性,并可以在面对初始扰动时保持其鲁棒性。我们对这种模型进行了评估,并在针对不同数据集的对抗攻击中展示了其在对抗防御方面的显着改进。
Apr, 2023
通过引入一种名为正凹深度平衡 (pcDEQ) 模型的新型 DEQ 模型类,通过基于非线性 Perron-Frobenius 理论的方法强制非负权重和激活函数,可以简化训练过程并且保证了固定点的存在和唯一性,进而解决了 DEQ 模型存在的固定点唯一性和收敛性问题,实验证明了 pcDEQ 模型在隐式模型中的竞争力。
Feb, 2024
使用中间梯度的方法对 Deep Equilibrium Models 进行白盒攻击与评估,提高了其对抗攻击的鲁棒性,实验证明其在 CIFAR-10 数据集上的性能与同等规模的深度神经网络竞争力相当。
Jun, 2023
这篇研究论文介绍了一种称为 Deep Equilibrium (DEQ) 模型的隐式模型新类别,并提出了 TorchDEQ 库,该库能够在多个领域上定义、训练和推断使用 DEQ 模型,通过结合最佳实践,显著提高了 DEQ 模型在十个数据集上的性能、训练稳定性和效率。
Oct, 2023
本论文提出了一种新的策略来解决双重问题在计算上的瓶颈,该方法通过使用前向传递中的拟牛顿矩阵来有效地近似计算需要梯度的反向传递中的逆雅各比矩阵,从而降低了计算成本。该方法在超参数优化问题上具有显著优势,并且在规模更大的问题上与 Jacobian-free 方法一样具有可比性能。
我们提出了一种新的隐式网络类别,即多尺度深度平衡模型(MDEQ),适用于大规模高度分层的模式识别领域。这种方法可以同时解决多个特征维度的平衡点,并且可以用于多种任务和损失函数,例如使用单个 MDEQ 同时执行图像分类和语义分割。在 ImageNet 分类和 Cityscapes 数据集高分辨率图像的语义分割任务上,我们展示了此方法的有效性。
Jun, 2020
本研究探讨了利用 Deep Equilibrium(DEQ)模型而不是传统的深度学习网络来解决联邦学习(FL)问题的新视角。我们声称将 DEQ 模型纳入联邦学习框架中,自然解决了 FL 中的若干开放问题,例如由于共享大型模型而产生的通信开销,以及能够并入具有显著不同计算能力的异构边缘设备。此外,在 FL 框架的服务器端提出了一种加权平均融合规则,以考虑来自异构边缘设备的不同模型质量。据我们所知,本研究是第一个建立 DEQ 模型和联邦学习之间联系的研究,对于开发高效而有效的 FL 框架做出了贡献。最后,我们给出有前途的初始实验结果,证明了这种方法在解决 FL 挑战方面的潜力。
May, 2023
本文提出了问题,并在简单的情境下给出了详细的理论分析,证明了对于超参数化网络,与训练时相比增加测试时的内部迭代次数不能改善性能。