深度声明网络中梯度近似性的理解

ICMLJun, 2023

深度声明网络中梯度近似性的理解

Towards Understanding Gradient Approximation in Equality Constrained Deep Declarative Networks

Stephen Gould, Ming Xu, Zhiwei Xu, Yanbin Liu

TL;DR探讨当忽略约束项时，深层声明节点的梯度可以被近似，仍然产生全局损失函数的下降方向的条件。

Abstract

We explore conditions for when the gradient of a deep declarative node can be approximated by ignoring constraint terms and still result in a descent direction for the →

deep declarative node gradient approximation constraint terms global loss function deep learning models

发现论文，激发创造

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

约束引导梯度下降：不等式约束指导下的训练

本研究提出了约束引导梯度下降 (CGGD) 框架，使得域知识可以注入到神经网络的训练过程中，其中域知识被假定为一组硬不等式约束的连词，相比于其他神经符号方法，该方法使得模型收敛并满足数据集上的任何不等式约束，同时不需要事先将约束转换为某个特定项添加到学习目标中。经实验证明，与先前的工作相比，CGGD 使得训练不再依赖网络的初始化，并提高了所有数据的约束可满足性。

Jun, 2022

关于隐式深度学习的理论：隐式层的全局收敛性

本文基于深度平衡模型，分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态，证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解，同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。

Feb, 2021

相干梯度：一种理解基于梯度下降的优化中泛化性质的方法

本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设 Coherent Gradients，并支持该假设的启发式论证和简单实验证明。同时，该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。

Feb, 2020

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

深度学习理论 III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

使用变分不等式实现 GANs 的全局收敛到平衡点

通过对变分不等式框架的分析，我们发现在 GAN 的基本变体 Wasserstein Linear-Quadratic GAN 中，直接梯度下降方向会导致不收敛，而特定的正交方向可以实现收敛，我们称之为 “通过卷曲”，这是命名来源于其数学推导及感性：识别游戏的旋转轴并向 “卷曲” 更小的方向移动空间。

Aug, 2018

深度学习中使用梯度下降法无法逼近极小值

我们分析了深度学习网络中梯度下降算法的几何方面。具体而言，我们证明了对于欠参数的 ReLU 深度学习网络，Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此，我们得出结论，Chen-Munoz Ewald 2023 论文中介绍的方法与梯度下降方法是不相同的。

Nov, 2023

深度学习中的方向收敛和对齐

本文证明了通过梯度流学习方法得到的深层同质网络权重会趋向于收敛，并阐述了相应的研究内容，包括但不限于梯度流、分类损失、边缘最大化、显著图等方面。

Jun, 2020