使用重量约束随机动力学进行更好的训练

ICMLJun, 2021

使用重量约束随机动力学进行更好的训练

Better Training using Weight-Constrained Stochastic Dynamics

Benedict Leimkuhler, Tiffany Vlaar, Timothée Pouchon, Amos Storkey

TL;DR本研究介绍了一种通过引入定制化约束条件来减少神经网络权重梯度消失或爆发问题、提高分类边界的平滑性以及稳定深度神经网络，从而增强训练算法的稳健性和神经网络的泛化能力的方法。同时，还通过平衡重要性的 SG-MCMC 方法将这些约束条件有效地整合到一个随机梯度 Langevin 模型中，进一步探索损失函数的空间。值得注意的是，这些优化方式不需要适应神经网络体系结构设计选择或修改目标函数的正则化项，并且在分类任务中显示出较好的性能表现。

Abstract

We employ constraints to control the parameter space of deep neural networks throughout training. The use of customized, appropriately designed c

constraints deep neural networks exploding gradients orthogonality preservation weight normalizations

发现论文，激发创造

神经网络中的约束实现：一种随机增广拉格朗日方法

提出了一种用于深度神经网络（DNNs）的新颖正则化方法，将训练过程视为约束优化问题，利用随机增广拉格朗日乘子法（SAL）实现更灵活高效的正则化机制，对白盒模型进行改进以确保可解释性，实验证明该方法在图像分类任务上实现了更高的准确度并具有更好的约束满足性，从而展示其在受限设置下优化 DNNs 的潜力。

Oct, 2023

基于专家模型的物理约束扩展

通过使用 Mixture-of-Experts (MoE)，我们开发了一种可扩展的方法来强制执行硬物理约束，以增强神经 PDE 求解器在预测挑战性非线性系统动力学方面的准确性，并改善训练稳定性以及在训练和推断阶段所需的计算时间。

Feb, 2024

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

深度神经网络的预条件随机梯度 Langevin 动力学

本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法，在深度神经网络的训练中可以解决参数空间的病态和过拟合问题，并且在逻辑回归，前馈神经网络和卷积神经网络等模型上，表现出了最先进的性能。

Dec, 2015

轻触重约束的 SGD

本研究提出了 Projected Stochastic Gradient Descent（SGD）算法的一种有效扩展，可应用于许多受限函数的学习中，同时较少地应用每个迭代的约束，从而在适应区域内保持良好的优化。我们的理论分析显示，针对拥有大量约束的问题，其在单次迭代工作时间与所需迭代次数之间取得了很好的平衡。

Dec, 2015

深度学习的最优控制方法及其在离散权重神经网络中的应用

本研究提出了一个基于离散时间最优控制问题的深度学习训练算法 (MSA)，通过约束权重在离散集合内来实现神经网络的训练，获得了具有竞争力表现的分类结果和非常稀疏的三值网络权重，这有助于在低内存设备上进行模型部署。

Mar, 2018

关于正交性和学习具有长期依赖性的递归网络

本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题，使用正交矩阵作为约束条件以保持梯度范数，并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析，本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。

Jan, 2017

控制混沌：在递归神经网络的训练中强制执行动力学不变量

运用遍历理论引入机器学习的新型训练方式，强制实现系统中的动力学不变量，以提高在有限数据情况下对混沌动力学系统的长期预测能力，用回声状态网络体系结构进行演示，并以 Lorenz1996 混沌动力学系统和光谱拟地转模型为测试案例，取得了丰硕成果。

Apr, 2023

受控约束的深度网络模型用于增强动态系统的控制

不需了解动力学的情况下控制动态系统是一项重要且具有挑战性的任务。我们提出了一种控制理论方法，通过加入可控性约束来增强数据估计的模型，从而实现从数据中提取更有效的控制器。该方法展示了基于深度神经网络的模型估计与解决方案性质的控制理论保证之间的联系，并在两个标准经典控制系统中证明了其优势。

Nov, 2023