TorchDEQ:深度均衡模型库
本文介绍了一种新的应用于序列数据建模的方法 —— 深度平衡模型,并比较其在大规模语言模型任务上的性能,该方法可通过求解根来直接获取固定点,训练和预测所需的内存只需常数级别,大大减少了存储消耗。
Sep, 2019
本篇文章介绍了一个简单而有效的策略,通过 Broyden's Method 的 Jacobian 估计来避免 DEQ 网络层的反向传播过程中需要解决的昂贵 Jacobian-based 方程。实验证明,仅通过再次使用此估计,就能显著加速训练同时不会导致任何性能退化。
Apr, 2023
本篇论文中,我们提出了一种新的深度学习模型,称为 LyaDEQ,通过 Lyapunov 稳定性理论,确保了 DEQ 模型的稳定性,并可以在面对初始扰动时保持其鲁棒性。我们对这种模型进行了评估,并在针对不同数据集的对抗攻击中展示了其在对抗防御方面的显着改进。
Apr, 2023
本文提出一种正则化方案来加强深度均衡网络(DEQ)模型的学习稳定性,该正则化方案显著提高了 DEQ 模型的收敛速度和性能,使得 DEQ 模型与传统深度网络在速度和性能上保持相当,并且具有恒定的内存占用和简单的架构。
Jun, 2021
通过引入一种名为正凹深度平衡 (pcDEQ) 模型的新型 DEQ 模型类,通过基于非线性 Perron-Frobenius 理论的方法强制非负权重和激活函数,可以简化训练过程并且保证了固定点的存在和唯一性,进而解决了 DEQ 模型存在的固定点唯一性和收敛性问题,实验证明了 pcDEQ 模型在隐式模型中的竞争力。
Feb, 2024
本研究探讨了利用 Deep Equilibrium(DEQ)模型而不是传统的深度学习网络来解决联邦学习(FL)问题的新视角。我们声称将 DEQ 模型纳入联邦学习框架中,自然解决了 FL 中的若干开放问题,例如由于共享大型模型而产生的通信开销,以及能够并入具有显著不同计算能力的异构边缘设备。此外,在 FL 框架的服务器端提出了一种加权平均融合规则,以考虑来自异构边缘设备的不同模型质量。据我们所知,本研究是第一个建立 DEQ 模型和联邦学习之间联系的研究,对于开发高效而有效的 FL 框架做出了贡献。最后,我们给出有前途的初始实验结果,证明了这种方法在解决 FL 挑战方面的潜力。
May, 2023
使用中间梯度的方法对 Deep Equilibrium Models 进行白盒攻击与评估,提高了其对抗攻击的鲁棒性,实验证明其在 CIFAR-10 数据集上的性能与同等规模的深度神经网络竞争力相当。
Jun, 2023
我们提出了一种新的隐式网络类别,即多尺度深度平衡模型(MDEQ),适用于大规模高度分层的模式识别领域。这种方法可以同时解决多个特征维度的平衡点,并且可以用于多种任务和损失函数,例如使用单个 MDEQ 同时执行图像分类和语义分割。在 ImageNet 分类和 Cityscapes 数据集高分辨率图像的语义分割任务上,我们展示了此方法的有效性。
Jun, 2020
使用随机矩阵理论,对深度平衡模型的特征频谱进行深入分析,证明了隐式 CK 和 NTK 的谱行为取决于激活函数和初始权重方差,从而可以通过一个浅层显式网络来设计出相同的 CK 或 NTK。
Feb, 2024
该研究介绍了一个统一的神经网络架构,Deep Equilibrium Density Functional Theory Hamiltonian (DEQH) 模型,它结合了 Deep Equilibrium Models (DEQs) 来预测 Density Functional Theory (DFT) Hamiltonians。DEQH 模型固有地捕捉了 Hamiltonian 的自洽性质,解决了传统机器学习方法在 Hamiltonian 预测中常忽略的关键问题。在多个数据集上测试,DEQHNet 显著提高了预测准确性,除了预测器外,DEQH 模型还是一个 Hamiltonian 求解器,利用深度平衡模型的固定点求解能力迭代求解 Hamiltonian,对 DEQHNet 的消融研究进一步阐明了网络的有效性,揭示了 DEQ 集成网络在 Hamiltonian 学习中的潜力。
Jun, 2024